马斯克旗下xAI发布Grok 3大模型，实测能力引发热议

股市热点 2025-02-25 22:43:35 来源：每日经济新闻作者：网络

AI导读：

马斯克旗下xAI公司发布了更新版Grok 3大模型，宣称其为地球上最聪明的人工智能。然而，部分用户对Grok 3的能力产生质疑。记者测试发现，Grok 3确实是世界顶级模型，但并未与其他模型拉开太大差距，唯一显著的是其极快的响应速度。

近日，人工智能初创公司xAI（马斯克成立的人工智能公司）发布了更新版Grok 3大模型，埃隆·马斯克称之为“地球上最聪明的人工智能”。

根据官方测试结果，Grok 3在AIME和GPQA等基准测试中，表现远超GPT-4o、Gemini-2Pro、Deepseek V3、Claude 3.5 Sonnet等。在大模型竞技场Chatbot Arena测试中，xAI工程师表示，早期版本的Grok 3获得了第一的成绩，超越了Gemini 2.0 Flash Thinking实验版本、GPT-4o最新版本以及DeepSeek-R1等。

然而，部分用户对Grok 3的能力产生质疑，认为其并没有马斯克宣称的强大。OpenAI应用研究主管Boris Power对Grok团队在模型评估中的行为表示失望，指出其存在作弊动机，并称o3mini在各项评估中均优于Grok 3。

《每日经济新闻》记者测试发现，Grok 3确实是世界顶级模型，但并未与其他模型拉开太大差距，唯一显著的是其极快的响应速度。

轻松应对数字比大小

马斯克旗下的人工智能公司xAI发布了最新一代AI模型Grok 3。马斯克称其为“地球上最聪明的人工智能”，并表示Grok 3的能力远超前代，具备更强的推理、计算和适应能力。

在发布会上，马斯克宣称Grok 3在数学、科学和编程等基准测试中超越谷歌Gemini、DeepSeek V3、Anthropic的Claude和OpenAI的GPT-4o等。Grok 3发布后48小时内，xAI宣布免费开放给所有用户。

记者对Grok 3进行了测试。首先测试了最基础的问题：9.9和9.11谁大？Grok 3轻松应对。

逻辑思考能力有待提升

马斯克自豪地表示，Grok 3具备强大的逻辑推理能力。他声称，Grok 3可以改进解决问题的策略，通过回溯纠正错误，简化步骤。记者用“弱智吧”论坛中的具有挑战性的逻辑问题测试Grok 3。

在“用水来兑水，得到的是浓水还是稀水？”的问题上，Grok 3答对了，而OpenAI的o1认为得到的是稀水。但在另一道更复杂的逻辑推理题中，Grok 3未能答对，其他模型中只有R1成功答对。

记者多次测试发现，Grok 3对中文的理解和逻辑推理能力明显高于其他国外模型，但仍不如R1。

数学能力表现优异

在基准测试中，Grok 3数学能力得分最高。记者测试了一道台球问题：三人打台球，两人对局一人观战，输者下场换观战者上场，最终A输6局，B输8局，C输10局，问各赢多少局？只有Grok 3和OpenAI的o1答对，但Grok 3速度更快。

再测试一道群论问题：有几个阶为147的非同构群？Grok 3答对了数量但错了一个具体群，而其他模型只找到了5个正确的。在数学能力方面，Grok 3表现优异，但并未拉开显著差距。

编程能力险胜

针对编程能力，记者借用了Kcores联合创始人karminski-牙医的测评结果。他复现了马斯克在发布会上的火星发射计划代码模拟，并测试了多个模型。

测试中，Grok 3推理模型表现最佳，虽然动画火箭未与火星重叠，但轨道需求计算准确。最终Grok 3综合得分第一，其次是OpenAI的o1，两者差距不大。

综合来看，Grok 3是世界顶尖的AI模型，但其实际测试效果并未远超对手，唯一显著优势在于响应速度。马斯克所说的世界上最“聪明”的模型，或值得商榷。

（文章来源：每日经济新闻）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。