AI导读:

2月18日,马斯克发布Grok3大模型,采用20万张英伟达H100芯片训练,展示卓越技术实力。同日,DeepSeek发布降低训练成本的论文。两者代表中美AI大模型路线的本质差异,谁将更胜一筹?Grok3虽宣称将开源,但目前为闭源,而DeepSeek持续开源赋能全球。

2月18日,创立xAI的埃隆·马斯克发布了号称“地球上最聪明AI”的Grok3大模型,展示了其超越o3-mini的技术实力。同日,Deepseek的梁文锋和Kimi的杨植麟分别发布论文,聚焦减少长文本计算量,提升训练效率。这凸显了中美AI大模型路线的本质差异:马斯克采用20万张英伟达H100芯片训练Grok3,体现“力大砖飞”的美式路径;而DeepSeek则追求降低训练成本,提升效率。

Grok3虽宣称将开源,但目前仍为闭源,而DeepSeek持续开源,赋能全球。昂贵先进的闭源模型与性价比较高的开源模型,谁将更胜一筹?

马斯克靠“力大砖飞”登顶大模型测评榜,英伟达股价随之“收复失地”。Grok3使用20万块英伟达H100芯片训练,刷新大模型界权威盲测榜单记录。其背后庞大的参数规模和训练数据量,再次证明了“Scaling Law”的有效性。

xAI建立的数据中心,显示了其对大型算力集群的重视。尽管马斯克未提及数据规模,但分析认为,这包括互联网和特斯拉工厂的数据。

另一方面,梁文锋和杨植麟聚焦AI降本增效,让大模型人人可用。DeepSeek推出的NSA机制,加快了推理速度,降低了预训练成本。Kimi也发表了类似论文,介绍MoBA机制,提高计算效率。

NSA和MoBA机制都强调可无缝集成到现有语言模型中,无需重新训练。DeepSeek的开源模式也对美国大模型发展产生影响,xAI随后宣布免费提供Grok3服务。

Grok3在对话中透露,其训练成本高昂,而DeepSeek则具有成本优势。AI的进步是全球共同努力的结果,中美都在其中发挥了重要作用。