AI导读:

DeepSeek团队发布最新论文,提出mHC框架以改进大模型训练性能。该框架建立在残差连接和HC范式基础上,通过智能调度系统解决模型训练不稳定问题,并有望为下一代基础架构发展指明新途径。

北京时间2026年1月1日,DeepSeek团队发布了最新论文,名为《mHC: Manifold-Constrained Hyper-Connections》,旨在改进大模型训练性能。该团队在基础模型理论研发上投入大量精力,创始人梁文锋近期入选《自然》2025年影响科学发展十大人物。论文聚焦于大模型训练的残差连接范式及其升级版本HC(超连接)范式,并提出mHC框架,通过智能调度系统解决模型训练不稳定问题。DeepSeek的mHC建立在何凯明团队和字节跳动提出的HC范式基础上,旨在重振对宏观架构设计的兴趣,并有望为下一代基础架构的发展指明新途径。