DeepSeek 公布新论文,提出名为 mHC 新架构
北京时间 1 月 1 日,DeepSeek 公布了一篇新论文,提出名为 mHC (流形约束超连接)的新架构。
据介绍,该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。
团队指出,在过去十年中,残差连接(Residual Connection)一直是深度学习架构的基石。
而近期出现的 「超连接(Hyper-Connections, HC)」 技术通过扩大残差流宽度和多样化连接模式,虽然带来了显著的性能提升,但也引入了严重的副作用——它破坏了对模型训练至关重要的 「恒等映射属性」。
这不仅导致训练过程极不稳定,限制了模型的扩展能力,还带来了额外的显存访问开销。
而实验数据显示,进行重构后的 mHC 在大规模训练场景下效果显著,不仅带来了实质性的性能提升,更展现出优越的 可扩展性。
DeepSeek 团队认为, mHC 作为一种灵活且实用的架构扩展,将加深行业对拓扑架构设计的理解,并为基础模型的未来演进指明了新方向。
值得关注的是,该篇论文第一作者分别为 Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao 。同时, DeepSeek 创始人及 CEO 梁文锋也在作者名单中。