算力竞争转向系统效率:全栈模式遇挑战
AI导读:
在大模型快速迭代和算力需求指数级攀升的背景下,算力产业正经历一场路径层面的调整。本文探讨了全栈模式面临的挑战以及开放计算在AI产业中的意义。
在大模型快速迭代、算力需求指数级攀升的背景下,算力产业似乎正在经历一场路径层面的调整。
过去几年,全栈能力一度被视为国产芯片厂商缩短差距、提升竞争力的关键路径,从芯片设计到整机系统,芯片厂商曾试图以一家之力构建起算力闭环。但在最新的行业共识中,这一路线正被越来越多厂商主动反思甚至修正。
在近日举行的光合组织2025人工智能创新大会上,多位来自芯片、服务器、整机和系统厂商的核心人物强调:算力竞争已经从单点性能转向系统效率,从全栈路线转向多方协同的系统工程。
这一转向并非理念变化,而是大模型时代真实工程约束下的必然结果。
正如中国科学院院士周成虎所言,数字社会需要一个超级大脑来支配其发展,计算正是这大脑背后的核心支撑,GPU(图形处理器)、CPU(中央处理器)、TPU(张量处理器)等让我们能够通过暴力计算来理解数据的实质。但与此同时,随着大模型参数量向万亿级甚至十万亿级跨越,过去那种依靠单一芯片性能提升的暴力计算模式正在触碰物理与效率的极限。

光合组织2025人工智能创新大会现场图片来源:主办方
从芯片性能到系统效率,单点突破正在失效
“人工智能产业(链条),从芯片到系统到应用,整体链条非常长,但是现在整体的趋势又需要这些东西紧耦合在一起,不是某一个环节做好就可以的。”中科曙光高级副总裁李斌判断,今天的大模型对算力的要求已经不是某一颗芯片算得快不快,而是整个系统能不能长期、稳定、高效地跑起来。
在人工智能发展的初级阶段,算力的提升主要依赖于GPU、CPU等单一处理器性能的迭代。但当任务的复杂度实现跨越式提升、处理时长高速增长时,单一芯片的优化已显得杯水车薪。
随着模型规模向万亿参数演进,算力系统面临的挑战已不再局限于算力峰值,而是延伸至互连带宽、存储层级、供电制冷、系统稳定性等系统性指标。
李斌指出,随着算力规模的不断扩大,首先需要保障可扩展性,避免计算效率下降,同时,规模扩大意味着可能导致系统可靠性下降的原因也会变多,而可扩展性、可靠性以及系统的能效和能耗都是决定系统是否可用的关键因素。
这也意味着,如果不能从系统层面解决能效和推理效率问题,AI的规模化落地将难以为继。
IDC中国区副总裁兼首席分析师武连峰表示,为了支持万亿规模的大模型,传统的计算节点已无法适应,行业共识正转向超节点和超集群模式,即通过超高速总线将不同的GPU焊接在一起,形成高密度的计算单元,以更好地满足用户的需求。
武连峰表示,传统集群在节点规模扩大后,通信开销往往占用30%~50%的资源,使得算力不能被充分利用,而超集群本质上是把算力从硬件工程升级为系统工程,需要在算、存、网、电、冷、管、软等多个维度协同融合,而非简单堆叠芯片。
这也意味着,过去依赖单点性能突破来弥补系统短板的思路正在失效。即便芯片性能持续提升,如果互连协议不统一、系统软件不兼容、运维可靠性不足,整体算力效率依然会被迅速稀释。
海光信息副总裁吴宗友在接受包括《每日经济新闻》记者在内的媒体采访时也指出,在国产化快速推进的过程中,芯片种类的快速增加反而给用户带来了新的负担,每一种芯片都需要单独适配、优化和维护,性能并不能直接转化为用户的实际收益。
全栈模式的代价:生态内耗与用户痛点
在市场发展初期,不少国产厂商选择全栈自研模式,试图通过紧耦合的技术架构建立竞争围墙。
李斌在接受采访时表示,这种现象的背后是厂商的普遍焦虑:由于人工智能产业链极长,厂商担心只做某一个环节无法掌控市场,于是纷纷开启全栈模式。然而,这种尝试带来的结果却是“内卷”加剧,各家都想做全套
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

