AI导读:

DeepSeek近日开源了DeepSeek R1(0528)新版本,性能直逼OpenAI o3和Gemini 2.5 Pro。新版模型在数学、编程与通用逻辑等基准测评中取得优异成绩,且模型幻觉减半。同时,腾讯、OpenAI、阿里云等也在AI领域展开激烈竞争。

  中经记者李昆昆李正豪北京报道

  在业界期待Deepseek R2亮相之际,DeepSeek仅在用户群发布公告称“DeepSeek-R1模型已完成小版本试升级”。次日,DeepSeek开源了DeepSeek R1(0528)。虽未举办发布会,但因模型幻觉减半且性能逼近OpenAI o3和Gemini 2.5 Pro,DeepSeek-R1新版本仍令海外开发者赞叹其数学与编程能力的进步,其“开源”姿态亦再次获业界认可,被誉为“真正的OpenAI”。

  此前,DeepSeek V3模型也曾进行小版本升级,同样通过官方交流群发布,未进行大规模宣传。有业界人士在接受《中国经营报》采访时,将这种“小版本升级”比作DeepSeek的低调快跑。财经专栏作者马继鹏表示:“若从不同维度对比,DeepSeek在基础能力方面(与国内主流大模型相比)更为强大,但(国内)其他几个大模型在应用上表现更佳,更贴近用户。”

  更新亮点

  DeepSeek方面介绍,DeepSeek-R1(0528)仍基于2024年12月发布的DeepSeek V3 Base模型,但在后训练过程中投入更多算力,显著提升模型思维深度与推理能力。更新后的R1模型在数学、编程与通用逻辑等基准测评中取得优异成绩,整体表现已接近OpenAI新款模型o3与Gemini-2.5-Pro。

  在代码测试平台Live CodeBench中,DeepSeek-R1(0528)性能表现与OpenAI的o3相当,得分73.1分,排名第四,接近OpenAI的o3(75.8分)和o4-mini(80.2分)。

  DeepSeek指出,新版模型在复杂推理任务中表现显著提升。在AIME 2025测试中,新版模型准确率由70%提升至87.5%。这得益于模型推理过程中思维深度增强:在AIME 2025测试集上,旧版模型平均每题使用12K tokens,新版则使用23K tokens,表明其解题过程更为详尽深入。

  同时,DeepSeek蒸馏DeepSeek-R1(0528)的思维链后训练Qwen3-8B Base,得到DeepSeek-R1-0528-Qwen3-8B。该模型在数学测试AIME2024中仅次于DeepSeek-R1-0528,超越Qwen3-8B(+10.0%),与Qwen3-235B相当。DeepSeek认为,DeepSeek-R1-0528的思维链对学术界推理模型研究及工业界小模型开发均具重要意义。

  “DeepSeek走红后,豆包、Kimi等也进行升级,加入推理功能,因此现阶段难以明确判断哪家更优。”马继鹏表示,豆包、混元大模型能结合已有数据,为用户提供更准确答案。如混元大模型会结合微信公众号特有数据,提供全面深刻的答案。

  据悉,新版DeepSeek R1在模型幻觉改善方面进行优化。与旧版相比,新版模型在改写润色、总结摘要、阅读理解等场景中幻觉率降低45%—50%,提供更为准确可靠的结果。

  在创意写作方面,新版R1模型针对议论文、小说、散文等文体进一步优化,能输出篇幅更长、结构内容更完整的长篇作品,且写作风格更贴近人类偏好。

  竞争激烈

  DeepSeek宣布R1更新后,腾讯随即宣布腾讯元宝、搜狗输入法、QQ浏览器等产品率先接入DeepSeek-R1-0528。

  最新消息称,OpenAI公司代表在墨西哥AI Summit峰会上透露,公司正开发下一代基础模型GPT-5,计划通过该模型与竞争对手展开更激烈竞争。GPT-5或将于今年7月面世。

  阿里云亦宣布,通义灵码AI IDE正式上线,用户可在通义灵码官网免费下载使用。至此,通义灵码已拥有插件和IDE两种形态。作为AI原生开发环境工具,通义灵码AI IDE深度适配最新千问3大模型,全面集成通义灵码插件能力,具备编程智能体、行间建议预测、行间会话等功能。

  商业智能数据服务商QuestMobile发布的2025年第一季度中国AIGC应用市场竞争分析报告显示,截至2025年2月底,AI原生App月度活跃用户超2.4亿,增幅88.9%。3月AI原生App月活规模前三名为DeepSeek、豆包、腾讯元宝,用户规模分别为1.94亿、1.16亿、0.42亿。

  从用户来源看,3月DeepSeek用户中,豆包、Kimi智能助手、腾讯元宝占比分别为22.2%、3.8%、3.3%;豆包用户中,DeepSeek、腾讯元宝、Kimi智能助手占比分别为37.6%、5.7%、5.6%;腾讯元宝用户中,DeepSeek、豆包、Kimi智能助手占比分别为52.3%、32.9%、9.6%。

  DeepSeek创始人梁文锋表示:“长远来看,我们希望建立生态系统,让行业直接使用我们的技术和成果,其他公司基于我们的模型开发B2B/B2C服务,而我们专注于基础研究。若产业链完整,我们无须亲自做应用。当然,如有必要,我们完全有能力去做,但研究和创新始终是我们的核心优先级。”

  “大模型的好坏取决于两方面能力:一是技术能力,如推理、分析能力;二是数据能力。”马继鹏认为,DeepSeek作为通用大模型基座,其能力目前仍难以被其他大模型超越,未来或继续加强此优势。

(文章来源:中国经营网)