DeepSeek R1模型升级,对比OpenAI O3展现强劲实力
AI导读:
DeepSeek R1模型完成小版本升级,性能媲美OpenAI最新O3模型。对比测试中,DeepSeek在代码生成、复杂推理方面表现突出,但在地理常识和历史考据上略有不足。总体展现出强劲实力和竞争力。
Deepseek昨晚通过微信交流群通知,其DeepSeek R1模型完成小版本升级,并在今日凌晨开源了最新版本模型DeepSeek-R1-0528。此次升级后,DeepSeek在代码生成和复杂推理能力上有了显著提升。
代码测试平台Live CodeBench显示,DeepSeek-R1-0528性能已经可以媲美OpenAI最新的o3(High)模型。这一对比测试引起了业界的广泛关注。
小K以一名普通用户的身份,参考AI基准测试xbench的例题,对DeepSeek和OpenAI的最新模型进行了对比测试。测试涵盖了代码生成、函数推理、地理常识、历史考据及多维信息提取等多个维度。
在代码生成测试中,DeepSeek直接输出了完整的网页游戏“三国杀”源码,前端界面美观,能完成简单对战逻辑,表现出强大的代码工程化能力。相比之下,OpenAI的方案则显得繁琐且伴有报错。

在函数推理测试中,DeepSeek虽然耗时较长,但思考过程详细且逻辑缜密,最终得出了正确答案。而OpenAI则用时较短,逻辑清晰,展现了高效的推理能力。

然而,在地理常识和历史考据测试中,DeepSeek的表现则略显不足。在地理常识题中,DeepSeek错误理解了“地市级单位”的概念,导致答案不完整。而在历史考据题中,DeepSeek更是出现了幻觉,误判了历史文物与名相的关联。


但在多维信息提取测试中,DeepSeek展现出了高效的数据整合能力。在统计《乐队的夏天》各季top5乐队中的女性成员数量时,DeepSeek用时不到1分钟即完成高质量统计和表格整理。

总体来看,DeepSeek R1的表现非常接近甚至在部分任务上超过了OpenAI最新O3模型。DeepSeek正快速缩小与顶级闭源模型的差距,展现出强大的竞争力和发展潜力。
(文章来源:科创板日报,关键词:AI模型、DeepSeek、OpenAI、对比测试)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。