AI导读:

马斯克旗下xAI公司发布了更新版Grok 3大模型,宣称其为地球上最聪明的人工智能。然而,部分用户对Grok 3的能力产生质疑。记者测试发现,Grok 3确实是世界顶级模型,但并未与其他模型拉开太大差距,唯一显著的是其极快的响应速度。

近日,人工智能初创公司xAI(马斯克成立的人工智能公司)发布了更新版Grok 3大模型,埃隆·马斯克称之为“地球上最聪明的人工智能”。

根据官方测试结果,Grok 3在AIME和GPQA等基准测试中,表现远超GPT-4o、Gemini-2Pro、Deepseek V3、Claude 3.5 Sonnet等。在大模型竞技场Chatbot Arena测试中,xAI工程师表示,早期版本的Grok 3获得了第一的成绩,超越了Gemini 2.0 Flash Thinking实验版本、GPT-4o最新版本以及DeepSeek-R1等。

然而,部分用户对Grok 3的能力产生质疑,认为其并没有马斯克宣称的强大。OpenAI应用研究主管Boris Power对Grok团队在模型评估中的行为表示失望,指出其存在作弊动机,并称o3mini在各项评估中均优于Grok 3。

《每日经济新闻》记者测试发现,Grok 3确实是世界顶级模型,但并未与其他模型拉开太大差距,唯一显著的是其极快的响应速度。

轻松应对数字比大小

马斯克旗下的人工智能公司xAI发布了最新一代AI模型Grok 3。马斯克称其为“地球上最聪明的人工智能”,并表示Grok 3的能力远超前代,具备更强的推理、计算和适应能力。

在发布会上,马斯克宣称Grok 3在数学、科学和编程等基准测试中超越谷歌Gemini、DeepSeek V3、Anthropic的Claude和OpenAI的GPT-4o等。Grok 3发布后48小时内,xAI宣布免费开放给所有用户。

记者对Grok 3进行了测试。首先测试了最基础的问题:9.9和9.11谁大?Grok 3轻松应对。

逻辑思考能力有待提升

马斯克自豪地表示,Grok 3具备强大的逻辑推理能力。他声称,Grok 3可以改进解决问题的策略,通过回溯纠正错误,简化步骤。记者用“弱智吧”论坛中的具有挑战性的逻辑问题测试Grok 3。

在“用水来兑水,得到的是浓水还是稀水?”的问题上,Grok 3答对了,而OpenAI的o1认为得到的是稀水。但在另一道更复杂的逻辑推理题中,Grok 3未能答对,其他模型中只有R1成功答对。

记者多次测试发现,Grok 3对中文的理解和逻辑推理能力明显高于其他国外模型,但仍不如R1。

数学能力表现优异

在基准测试中,Grok 3数学能力得分最高。记者测试了一道台球问题:三人打台球,两人对局一人观战,输者下场换观战者上场,最终A输6局,B输8局,C输10局,问各赢多少局?只有Grok 3和OpenAI的o1答对,但Grok 3速度更快。

再测试一道群论问题:有几个阶为147的非同构群?Grok 3答对了数量但错了一个具体群,而其他模型只找到了5个正确的。在数学能力方面,Grok 3表现优异,但并未拉开显著差距。

编程能力险胜

针对编程能力,记者借用了Kcores联合创始人karminski-牙医的测评结果。他复现了马斯克在发布会上的火星发射计划代码模拟,并测试了多个模型。

测试中,Grok 3推理模型表现最佳,虽然动画火箭未与火星重叠,但轨道需求计算准确。最终Grok 3综合得分第一,其次是OpenAI的o1,两者差距不大。

综合来看,Grok 3是世界顶尖的AI模型,但其实际测试效果并未远超对手,唯一显著优势在于响应速度。马斯克所说的世界上最“聪明”的模型,或值得商榷。

(文章来源:每日经济新闻)