AI导读:

阿里巴巴集团发布千问旗舰推理模型Qwen3-Max-Thinking,该模型总参数量超万亿,是目前规模最大、能力最强的推理大模型。该模型采用全新测试时扩展机制,实现推理性能提升并增强原生Agent能力。

  1月26日,阿里巴巴集团控股有限公司(以下简称“阿里”)正式发布千问旗舰推理模型Qwen3-Max-Thinking。该模型总参数量超万亿(1T),预训练数据量高达36T Tokens,是目前阿里规模最大、能力最强的推理大模型。

  阿里方面表示,千问新模型通过总参数、强化学习、推理计算的极致规模扩展,实现了性能的大幅飞跃,在多项关键性能基准测试中刷新纪录。同时,该模型采用全新测试时扩展(Test-time Scaling)机制,实现推理性能提升同时更为经济,并大幅增强原生Agent(智能体)能力,模型对话时可自主调用工具。

  推理机制革新

  具体来看,在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展机制,这一新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。

  基于这一推理技术创新,千问的推理性能和推理效率显著提升,比如,在启用工具的“人类最后的测试”HLE中,千问得分58.3,大幅超过GPT-5.2-Thinking的45.5、Gemini 3 Pro的45.8,获得当前所有模型的最高分。

  值得关注的是,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能结合工具进行思考的能力。

  这种自适应的工具调用能力可在QwenChat上体验,模型自主选用搜索、个性化记忆和代码解释器三个核心的Agent工具功能,模型幻觉也有所降低。

  据了解,AI开源社区Hugging Face最新数据显示,阿里千问衍生模型数突破20万个,同时,千问系列模型下载量突破10亿次,平均每天被下载110万次,已完全超越美国Llama。

  一位不愿具名的行业分析师表示,在AI从“炫技”走向“办事”的拐点之年,阿里凭借其独特的生态优势与技术积累,或将成为中国AI商业化落地最有力的推动者之一。而Qwen3-Max-Thinking的发布,不仅是一次技术发布,更是阿里向全球AI产业发出的一张“中国方案”名片。

  AI生态加速整合

  值得关注的是,此次发布并非孤立的技术秀,而是阿里“AI办事时代”战略的关键一环。

  2025年12月31日,搭载千问AI助手的夸克AI眼镜迎来首次OTA(空中下载技术),AI能力进一步增强。新增录音纪要、图文备忘录、大模型多意图理解和执行、蓝环支付、社区服务五项新功能,并对翻译、行程查询、音乐播放等功能场景进行优化。

  1月15日,阿里旗下千问App宣布完成新一轮功能升级,正式从“聊天对话”工具迈入“办事时代”。此次更新的核心在于千问App全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务,上线生活、政务、工作、教育四大场景多项办事功能,使其成为能够独立完成真实世界任务的AI助手。

  值得关注的是,阿里已于2025年12月初正式成立千问C端事业群……