AI导读:

2025年2月,腾讯混元TurboS、阿里Wan2.1等国产AI大模型快速迭代,DeepSeek开源周展示技术创新,包括FlashMLA解码内核、DeepEP通信库等。GPT-4.5发布,海外AI业界同样活跃。2025年或成为国产大模型和应用的爆发之年。

3月4日,海通证券发布计算机行业报告。2025年2月3日至2月28日,计算机(中信)指数从5695点上涨至6600点,涨幅达15.9%;同期,上证指数微涨2.16%,沪深300涨幅1.91%,创业板指涨幅5.16%,科创50指数涨幅显著,达到12.95%。

腾讯混元新一代快思考模型TurboS于2月27日正式发布。该模型区别于需“思考后回答”的慢思考模型,如DeepseekR1,TurboS能实现“秒回”,吐字速度提升一倍,首字时延降低44%。TurboS在知识、数理、创作等方面表现优异,结合慢思考,让大模型更智能、高效。通过长短思维链融合,TurboS显著改进了理科推理能力,在知识、数学、推理等领域,展现出对标DeepSeekV3、GPT4o、Claude等业界领先模型的效果。

TurboS架构全新升级,推出深度思考推理模型T1。采用Hybrid-Mamba-Transformer融合模式,降低了计算复杂度,减少了缓存占用。该模式结合Mamba处理长序列的能力和Transformer捕捉复杂上下文的优势,构建了显存与计算效率双优的混合架构。作为旗舰模型,TurboS将成为腾讯混元系列衍生模型的核心。

2月25日,阿里通义旗下视频生成大模型Wan2.1正式开源,提供14B/1.3B双版本。专业版满足高质量视频需求,极速版适配消费级显卡。Wan2.1在处理复杂运动、还原真实物理规律等方面具有优势,支持中英文文字特效生成。在VBench评测中,Wan2.1以总分86.22%领先Sora等竞品。

OpenAI发布GPT-4.5,是迄今为止最大且最优的聊天模型。GPT-4.5通过扩大预训练和后训练规模,提升了识别模式、建立联系及生成创造性见解的能力。其互动更自然,知识基础更广泛,理解用户意图能力更强,情商更高。GPT-4.5与推理模型OpenAIo1和OpenAIo3-mini相比,更通用、内在更智能。

DeepSeek“开源周”启动,首日开源专为英伟达HopperGPU优化的FlashMLA解码内核,处理可变长度序列更高效。随后几日,分别开源DeepEP通信库、DeepGEMM矩阵乘法加速库、DualPipe和EPLB并行策略,以及面向全数据访问的3FS并行文件系统。

DeepSeek第六日介绍其V3/R1推理系统,采用多项技术优化吞吐量和延迟。统计数据显示,每个H800节点实现高输入输出token,理论成本利润率高达545%。尽管实际收入低于此,但DeepSeek的定价策略和服务模式显示了AI大模型的商业化潜力。

2月,我国国产大模型快速迭代,腾讯混元TurboS与DeepSeekV3、GPT4o对标,阿里Wan2.1领先海外顶尖模型。OpenAI4.5发布,海外AI业界同样活跃。DeepSeek开源周展示了AI基础技术创新,对行业研发者具有启发作用,有望推动AI更快发展。2025年或成为国产大模型和应用的爆发之年。

(文章来源:财中社)