AI导读:

华为云近日推出CloudMatrix 384超节点,计划上半年数万规模上线,有望终结算力焦虑。该产品以384张昇腾算力卡组成超节点,算力规模达300PFlops,相比英伟达NVL72提升67%。尽管单位算力功耗较高,但仍看好国内AI进展加速。

近日,华为在AI基础设施领域取得了新进展,推出了CloudMatrix 384超节点,并已在芜湖数据中心规模上线。据《科创板日报》独家了解,华为云CloudMatrix384超节点今年上半年将有数万规模的上线计划。华为内部人士高度评价其为核弹级产品,有望彻底终结算力焦虑。未来,CloudMatrix超节点将能够构建超过万片的大集群,提供强大的算力支持。

传统的AI服务器通常包括8张算力卡,组成一个节点。然而,服务器内部算力卡之间传输速度虽快,但服务器间的传输速度却慢得多。随着大模型浪潮的到来,行业巨头需要连接成千上万乃至10万计的GPU算力卡,这使得互联和通信成为一大挑战。如果能够采用高速通信技术,将更多算力卡融合为一个超节点,实现超节点内算力卡的高速互联和通信,将大大提升算力集群的性能。

2024年3月,英伟达率先发布了NVL72超节点,可将72张训练卡组成一个超节点,为大型语言模型推理提供30倍实时速度提升。而此次华为发布的CloudMatrix 384更进一步,以384张昇腾算力卡组成一个超节点,成为目前商用超节点中单体规模最大的产品。

据悉,华为CloudMatrix 384在规模、性能和可靠性方面均与英伟达NVL72对标。基于CloudMatrix的昇腾AI云服务,大模型训练作业可稳定运行40天,互联带宽断点恢复在10秒级别。在互联带宽方面,超节点网络交换机采用6812个400G光模块,实现2.8Tbps卡间互联带宽。

《科创板日报》从基流动方面获悉,硅基流动已联合华为云,基于CloudMatrix384超节点昇腾云服务正式上线Deepseek-R1。在保证单用户20TPS水平的前提下,单卡Decode吞吐突破1920Tokens/s,性能可比肩H100。同时,经过主流测试集验证及大规模线上盲测,在昇腾算力部署DeepSeek-R1的模型精度与DeepSeek官方保持一致。

目前,国产芯片与英伟达芯片在单卡性能方面仍存在一定差距,但通过多卡集群后差距缩小。华为公布的数据显示,CloudMatrix 384实现算力规模达300PFlops,相比英伟达NVL72的180PFlops提升67%。然而,在单位算力功耗方面,国产芯片仍高于英伟达。

一位芯片业内人士对《科创板日报》表示,华为公开的数据未提及CloudMatrix 384的算力功耗比。更高的功耗对服务器散热要求更高,机房规模需更大,导致整体成本上升。此外,算力卡数量较多时,数据需在多卡间来回传输,增加时间开销。尽管如此,在功耗更大的情况下,能达到NVL72的水平已相当不易,体现了华为的研发实力。

国泰海通证券认为,华为云推出CloudMatrix 384超节点,在单用户20TPS前提下,单卡Decode吞吐突破1920Tokens/s,比肩全球主流GPU部署性能。超节点机柜在集群推理方面具备优势。随着国内外硬件供应瓶颈逐步缓解,看好国内AI进展加速。

(文章来源:科创板日报)