华为云推出CloudMatrix 384超节点，算力规模大幅提升

股市热点 2025-04-14 20:51:03 来源：科创板日报作者：网络

AI导读：

华为云近日推出CloudMatrix 384超节点，计划上半年数万规模上线，有望终结算力焦虑。该产品以384张昇腾算力卡组成超节点，算力规模达300PFlops，相比英伟达NVL72提升67%。尽管单位算力功耗较高，但仍看好国内AI进展加速。

近日，华为在AI基础设施领域取得了新进展，推出了CloudMatrix 384超节点，并已在芜湖数据中心规模上线。据《科创板日报》独家了解，华为云CloudMatrix384超节点今年上半年将有数万规模的上线计划。华为内部人士高度评价其为核弹级产品，有望彻底终结算力焦虑。未来，CloudMatrix超节点将能够构建超过万片的大集群，提供强大的算力支持。

传统的AI服务器通常包括8张算力卡，组成一个节点。然而，服务器内部算力卡之间传输速度虽快，但服务器间的传输速度却慢得多。随着大模型浪潮的到来，行业巨头需要连接成千上万乃至10万计的GPU算力卡，这使得互联和通信成为一大挑战。如果能够采用高速通信技术，将更多算力卡融合为一个超节点，实现超节点内算力卡的高速互联和通信，将大大提升算力集群的性能。

2024年3月，英伟达率先发布了NVL72超节点，可将72张训练卡组成一个超节点，为大型语言模型推理提供30倍实时速度提升。而此次华为发布的CloudMatrix 384更进一步，以384张昇腾算力卡组成一个超节点，成为目前商用超节点中单体规模最大的产品。

据悉，华为CloudMatrix 384在规模、性能和可靠性方面均与英伟达NVL72对标。基于CloudMatrix的昇腾AI云服务，大模型训练作业可稳定运行40天，互联带宽断点恢复在10秒级别。在互联带宽方面，超节点网络交换机采用6812个400G光模块，实现2.8Tbps卡间互联带宽。

《科创板日报》从硅基流动方面获悉，硅基流动已联合华为云，基于CloudMatrix384超节点昇腾云服务正式上线Deepseek-R1。在保证单用户20TPS水平的前提下，单卡Decode吞吐突破1920Tokens/s，性能可比肩H100。同时，经过主流测试集验证及大规模线上盲测，在昇腾算力部署DeepSeek-R1的模型精度与DeepSeek官方保持一致。

目前，国产芯片与英伟达芯片在单卡性能方面仍存在一定差距，但通过多卡集群后差距缩小。华为公布的数据显示，CloudMatrix 384实现算力规模达300PFlops，相比英伟达NVL72的180PFlops提升67%。然而，在单位算力功耗方面，国产芯片仍高于英伟达。

一位芯片业内人士对《科创板日报》表示，华为公开的数据未提及CloudMatrix 384的算力功耗比。更高的功耗对服务器散热要求更高，机房规模需更大，导致整体成本上升。此外，算力卡数量较多时，数据需在多卡间来回传输，增加时间开销。尽管如此，在功耗更大的情况下，能达到NVL72的水平已相当不易，体现了华为的研发实力。

国泰海通证券认为，华为云推出CloudMatrix 384超节点，在单用户20TPS前提下，单卡Decode吞吐突破1920Tokens/s，比肩全球主流GPU部署性能。超节点机柜在集群推理方面具备优势。随着国内外硬件供应瓶颈逐步缓解，看好国内AI进展加速。

（文章来源：科创板日报）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。