DeepSeek 公布 V3 降本技术,技术报告公布
DeepSeek 公布了旗下 V3 模型在训练、推理过程中,如何解决「硬件瓶颈」和「降本」的技术报告,值得一提的是, DeepSeek 创始人梁文锋也在作者名单中。
据报告显示, DeepSeek-V3 使用 2048 个英伟达 H800 GPU 进行训练,但其达到了超大规模集群相当的训练效果,其中包含了以下四项技术:
- 采用多头潜在注意力(MLA),减少临时数据(KV Cache)的内存占用。通过内存优化, DeepSeek-V3 的 KV 缓存大小每 token 仅需 70 KB ,是传统方法的 1/7 至 1/4 ,从而大幅降低显存压力。
- 采用 DeepSeek-MoE(混合专家架构)进行计算优化。 DeepSeek-V3 凭借 MoE 单次推理只激活部分参数的思路,训练成本仅为同规模稠密模型的 1/10 。并且得益于激活参数减少, V3 能够在消费级 GPU 上运行,并达到每秒生成近 20 个 toeken 。
- 通过 FP8 低精度训练,将模型所需内存占用和计算量减半,并通过「精细量化」保持精度要求。 DeepSeek-V3 通过 FP8 ,训练成本成功降低 50%,精度损失小于 0.25%。
- 通信方面, DeepSeek-V3 采用了多层胖树网络(Multi-Plane Fat-Tree),避免不同任务流量冲突;在模型推理时,还将「注意力计算」和「专家间通信」分阶段执行,利用流水线并行(DualPipe)让 GPU 在计算时同时传输数据。
- 推理加速方面, DeepSeek-V3 使用多 token 预测(MTP)的方法,将模型生成速度提升了 1.8 倍,同时保持准确率在 80%-90%。
另外, DeepSeek 团队还对未来 AI 发展的多维度进行了展望,有「CPU 与 GPU 通信瓶颈」「低精度计算支持」「系统鲁棒性挑战」「内存系统优化」等方面内容。
技术报告原文可以访问:https://arxiv.org/pdf/2505.09343