AI导读:

4月29日,阿里巴巴开源新一代通义千问模型Qwen3,在多个权威基准测试中全面超越全球顶尖模型,登顶全球开源模型。千问3采用混合专家架构,大幅提升推理、指令遵循等方面能力,提供8种参数大小的模型版本,支持MCP协议,部署成本大幅降低。目前,千问3已上线多个平台,全球开发者可免费下载商用。



4月29日,阿里巴巴开源了备受期待的新一代通义千问模型Qwen3(简称千问3),在GPQA、AIME24/25、LiveCodeBench等多个权威基准测试中全面超越R1、OpenAI-o1等全球顶尖模型,登顶全球开源模型,彰显AI技术实力。

其中,在奥数水平的AIME25测评中,千问3获得81.5分,刷新开源纪录;在考察代码能力的Live Code Bench测评中,千问3突破70分大关,表现超过Grok3;在评估模型人类偏好对齐的Arena Hard测评中,千问3以95.6分超越OpenAI-o1及Deepseek-R1,展现卓越性能。

千问3采用混合专家架构,总参数量为235B,激活参数量仅需22B,在推理、指令遵循、工具调用、多语言能力等方面均大幅增强,引领AI模型发展潮流。

千问3具有以下主要亮点:

一是“快思考”与“慢思考”结合。作为国内首个“混合推理模型”,Qwen3将“快思考”与“慢思考”集成进同一个模型,可以在思考模式(用于复杂的逻辑推理、数学和编码等任务)与非思考模式(用于聊天等简单实时交互)之间无缝切换,既可以对简单需求进行“秒答”,也能够对复杂问题进行多步骤“深度思考”,从而大幅节省算力消耗。

二是提供8种参数大小的模型。千问3提供了8款不同尺寸的丰富的模型版本,包含2款30B、235B的混合专家模型,以及0.6B、1.7B、4B、8B、14B、32B等6款稠密模型,每款模型均斩获同尺寸开源模型SOTA(最佳性能),满足不同场景与任务需求。

三是推理能力显著提升。千问3在数学、代码生成和常识逻辑推理方面超越QwQ(在思考模式下)和Qwen2.5 instruct models(在非思考模式下)。其中,Qwen3-235B-A22B表现尤为突出,刷新了开源模型的智能水平新高,显存占用仅为性能相近模型的三分之一。

四是支持MCP协议,具备强大的工具调用能力。在评估模型智能体能力的BFCL评测中,千问3拿下70.8的新高,超越谷歌Gemini2.5-Pro、OpenAI-o1等顶尖模型。千问3还支持MCP(模型上下文协议),并具备强大的工具调用能力,实现高效的手机及电脑智能体操作等任务。

五是部署成本大幅下降。在性能大幅提升的同时,千问3的部署成本大大降低。相比满血版DeepSeek-R1,千问3旗舰模型的部署成本大降75%—65%,为开发者提供了更具性价比的选择。

据了解,千问3系列模型依旧采用宽松的Apache2.0协议开源,并首次支持119多种语言。目前,千问3已上线魔塔社区、HuggingFace、Github等平台,全球开发者、研究机构和企业均可免费下载模型并商用。此外,个人用户可通过通义APP直接体验千问3,同时夸克也即将全线接入千问3。

随着AI产业的快速发展,性能更强、成本更优的模型将有越来越大的应用价值。通义千问团队表示,千问3的发布和开源将极大地推动大型基础模型的研究与开发,为全球的研究人员、开发者和组织赋能。

此次开源的千问3型以更小的参数规模实现了更高的智能水平,为开发者提供了更加多样的模型尺寸及思考模式选择,有助于开发者更好地平衡及控制预算成本。

通义千问团队的技术负责人林俊旸表示,团队正迈向下一个阶段,即训练智能体来扩展长程推理,同时更多地关注现实世界的任务,持续推动AI技术的创新与发展。

据悉,阿里通义已开源200余个模型,全球下载量超3亿次,千问衍生模型数超10万个,成为全球第一开源模型。通过持续的模型迭代及开源开放,阿里在推动AI技术普及的同时,也增强了中国在全球开源AI生态中的影响力。

(文章来源:证券时报)