
2026年1月26日,阿里通义实验室正式发布Qwen3-Max-Thinking模型。这款旗舰级推理模型在19项权威基准测试中与GPT-5.2-Thinking、Claude-Opus-4.5等顶尖模型表现相当,部分指标达到SOTA水平。其创新性的自适应工具调用能力,可智能调用搜索引擎和代码解释器,彻底取消传统搜索标识,实现更自然的交互体验。

在推理机制方面,Qwen3-Max-Thinking采用经验累积式多轮迭代策略。通过限制并行路径数量,将计算资源集中用于迭代式自我反思,从历史推理中提炼关键信息,避免重复推导。这种机制在GPQA、HLE等测试中带来2-4分的性能提升,同时降低30%的token消耗。实测显示,该模型在模拟硬币抛掷实验时,能自动生成60余行Python代码验证大数定律,图表虽朴素但数据准确。
在金融数据分析场景中,Qwen3-Max-Thinking展现出独特优势。当被要求分析英伟达和AMD股价变动时,尽管搜索过程存在信息碎片化问题,但最终生成的趋势图准确反映了市场动态,并结合财报数据给出专业解读。这种跨工具协作能力在同类模型中尚属首次实现。

编程能力测试中,Qwen3-Max-Thinking展现出显著提升。面对力量与速度种群模拟任务,模型偏好使用代码解释器生成可视化图表,相比预览版的网页方案更高效。当明确要求生成网页时,其UI设计质量明显改善,代码结构更清晰,交互逻辑更合理。
在算力优化方面,Qwen3-Max-Thinking通过精简并行路径,将计算资源集中投入核心推理过程。这种策略使模型在保持万亿级参数规模的同时,实现更高的推理效率。API定价方案(2.5元/百万输入tokens)也展现出商业竞争力,为开发者提供高性价比选择。

伴随模型发布,阿里还开源了Qwen3-TTS语音合成系列,支持音色克隆、拟人化语音生成等功能。这种软硬件协同优化策略,标志着大模型技术正从单一文本处理向多模态方向发展。目前Qwen3-Max-Thinking已上线Qwen Chat平台,开发者可通过阿里云获取API服务。












