关于 DeepSeek-V3,你需要了解的一切。
虽然此前 DeepSeek 已经发布了 V3 模型的技术报告,但刚刚,他们又悄然发布了另一篇围绕 DeepSeek-V3 的技术论文!
这篇 14 页的论文瞄向了「Scaling 挑战以及对 AI 架构所用硬件的思考」。从中你不仅能读到 DeepSeek 在开发和训练 V3 过程中发现的问题和积累的心得,还能收获他们为未来的硬件设计给出的思考和建议。这一次,DeepSeek CEO 梁文锋同样也是署名作者之一。
论文标题:Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures
论文地址:pdf/2505.09343
众所周知,如今大语言模型(LLM)的快速扩展暴露了当前硬件架构的一些关键局限性,包括内存容量、计算效率和互连带宽。以 DeepSeek-V3 为例,它是在 2048 块 NVIDIA H800 GPU 集群上进行训练,展示了硬件感知模型协同设计如何高效地应对这些限制,并最终实现了经济高效的大规模训练与推理。
因此,这项新研究并非重复 DeepSeek-V3 的详细架构和算法细节,而是从硬件架构和模型设计的双重视角,探讨它们之间在实现经济高效的大规模训练和推理过程中复杂的相互作用。通过探究这种协同作用,研究者旨在提供切实可行的见解,以洞悉如何在不牺牲性能或可访问性的情况下高效扩展 LLM。
具体而言,本文的重点包括如下:
硬件驱动的模型设计:分析硬件特性(如 FP8 低精度计算和 scale-up/scale-out 扩展网络属性)如何影响 DeepSeek-V3 中的架构选择。
硬件与模型之间的相互依赖关系:研究硬件能力如何影响模型创新,以及 LLM 不断变化的需求如何推动对下一代硬件的需求。
硬件开发的未来方向:从 DeepSeek-V3 中获取可行性见解,以指导未来硬件和模型架构的共同设计,为可扩展、经济高效的人工智能系统铺平道路。
DeepSeek 模型的设计原则
如图 1 所示,DeepSeek-V3 采用了 DeepSeekMoE 架构和多头潜在注意力(MLA)架构。其中,DeepSeekMoE 充分释放了混合专家(MoE)架构的潜力,而 MLA 则通过压缩键值(KV)缓存显著降低了内存消耗。
此外,DeepSeek-V3 引入了 FP8 混合精度训练技术,在保证模型质量的同时大幅降低了计算成本,使大规模训练更加可行。
为了提高推理速度,DeepSeek-V3 在其多 Token 预测模块 (Multi-Token Prediction Module) 的基础上集成了推测解码,从而显著提高了生成速度。
除了模型架构之外,DeepSeek 还探索了经济高效的 AI 基础架构,通过部署多平面双层胖树网络(Multi-Plane two-layer Fat-Tree)来取代传统的三层胖树拓扑结构,从而降低了集群网络成本。
这一系列创新旨在解决扩展 LLM 时的三个核心挑战 —— 内存效率、成本效益和推理速度。
内存效率
LLM 通常需要大量的内存资源,其内存需求每年增长超过 1000%。相比之下,高速内存(例如 HBM)容量的增长速度要慢得多,通常每年不到 50% 。虽然多节点并行是解决内存限制的可行方案,但在源头优化内存使用仍然是一个关键且有效的策略。
为了解决这一瓶颈,DeepSeek 采用了多头潜在注意力 (MLA),它使用投影矩阵将所有注意力头的键值表示压缩为一个较小的潜在向量,并与模型联合训练。在推理过程中,只需缓存潜在向量,与存储所有注意力头的键值缓存相比,显著降低了内存消耗。
除了 MLA 之外,DeepSeek 还提出了其他几种方法来减少 KV 缓存的大小。这些方法非常有价值,为内存高效注意力机制的进步提供了重要的启发:
共享 KV(GQA;MQA):多个注意力头共享一组键值对,而不是为每个注意力头维护单独的键值对,从而显著压缩了键值对的存储量。代表性方法包括 GQA 和 MQA。
此外,还包括窗口 KV、量化压缩等。
表 1 比较了 DeepSeek-V3、Qwen-2.5 72B 和 LLaMA-3.1 405B 中每个 token 的 KV 缓存内存占用情况。通过采用 MLA,DeepSeek-V3 显著减少了 KV 缓存大小,每个 token 仅需 70 KB,远低于 LLaMA-3.1 405B 的 516 KB 和 Qwen-2.5 72B 的 327 KB。
MoE 模型的成本效益
对于稀疏计算,DeepSeek 开发了 DeepSeekMoE,这是一种先进的混合专家 (MoE) 架构,如图 1 右下角所示。MoE 模型的优势在于两方面。
在训练时,降低计算需求。MoE 架构的主要优势在于它能够显著降低训练成本。通过选择性地激活专家参数的子集,MoE 模型允许总参数数量大幅增加,同时保持适度的计算需求。例如,DeepSeek-V2 拥有 236B 参数,但每个 token 仅激活 21B 参数。同样,DeepSeek-V3 扩展到 671B 参数 —— 几乎是 V2 的三倍 —— 同时每个 token 的激活量仅为 37B。相比之下,Qwen2.5-72B 和 LLaMa3.1-405B 等密集模型则要求在训练期间所有参数都处于激活状态。
如表 2 所示,DeepSeekV3 的总计算成本约为每 token 250 GFLOPS,而 72B 密集模型需要 394 GFLOPS,405B 密集模型则需要 2448 GFLOPS。这表明,MoE 模型在计算资源消耗量少一个数量级的情况下,实现了与密集模型相当甚至更优的性能。
个人使用和本地部署的优势。未来个性化 LLM 智能体将无处不在,而 MoE 模型在单请求场景中将展现出独特的优势。由于每个请求仅激活一小部分参数,内存和计算需求将大幅降低。例如,DeepSeek-V2(236B 参数)在推理过程中仅激活 21B 参数。这使得搭载 AI SoC 芯片的个人电脑能够达到近每秒 20 个 Token (TPS),甚至两倍于此的速度,这对于个人使用来说已经绰绰有余。相比之下,类似能力(例如 70B 参数)的密集模型在类似硬件上通常只能达到个位数的 TPS。
提高推理速度
计算与通信重叠:最大化吞吐量。推理速度既包括系统级最大吞吐量,也包括单请求延迟。为了最大化吞吐量,模型从一开始就采用双微批次重叠架构,有意将通信延迟与计算重叠。
此外,DeepSeek 将 MLA 和 MoE 的计算解耦为两个不同的阶段。当一个微批次执行部分 MLA 或 MoE 计算时,另一个微批次同时执行相应的调度通信。相反,在第二个微批次的计算阶段,第一个微批次则进行组合通信步骤。这种流水线方法实现了全对全(all-to-all)通信与持续计算的无缝重叠,确保 GPU 始终保持完全利用率。此外,在生产环境中,DeepSeek 采用预填充和解码分离架构,将大批量预填充和延迟敏感的解码请求分配给不同规模的专家并行组。这一策略最终在实际服务条件下实现了系统吞吐量的最大化。
推理速度和测试时间扩展。以 OpenAI 的 o1/o3 系列为例,LLM 中的测试时间扩展通过在推理过程中动态调整计算资源,推动了数学推理、编程和通用推理的重大进步。后续模型 —— 包括 DeepSeek-R1、Claude-3.7 Sonnet 、Gemini 2.5 Pro、Seed1.5-Thinking 和 Qwen3—— 也采用了类似的策略,并在这些任务中取得了显著的改进。
对于这些推理模型来说,较高的 token 输出速度至关重要。在强化学习 (RL) 工作流程中 —— 例如 PPO、DPO 和 GRPO —— 快速生成大量样本的需求使得推理吞吐量成为关键的瓶颈。同样,冗长的推理序列会增加用户等待时间,从而降低此类模型的实际可用性。因此,通过软硬件协同创新来优化推理速度对于提高推理模型的效率至关重要。
低精度驱动设计
FP8 混合精度训练
GPTQ 和 AWQ 等量化技术显著降低了内存需求。然而,这些技术主要应用于推理阶段以节省内存,而非训练阶段。NVIDIA 的 Transformer Engine 已经支持 FP8 混合精度训练,但在 DeepSeek-V3 之前,尚无开源大型模型利用 FP8 进行训练。
通过基础设施团队和算法团队的深入合作,以及大量的实验和创新,DeepSeek 开发了一个兼容 FP8 的 MoE 模型训练框架。图 1 展示了在训练过程中使用 FP8 精度前向和后向处理的计算组件。
LogFMT
在当前的 DeepSeek-V3 架构中,DeepSeek 采用低精度压缩进行网络通信。在 EP 并行过程中,Token 使用细粒度的 FP8 量化进行调度,与 BF16 相比,通信量减少了 50%。这显著缩短了通信时间。
除了这些传统的浮点格式外,DeepSeek 还尝试了一种新的数据类型,称为 LogFMT-nBit( Logarithmic Floating-Point Formats )。
互连驱动的设计
当前的硬件架构
DeepSeek 目前使用的 NVIDIA H800 GPU SXM 架构(如图 2 所示)基于 Hopper 架构构建,与 H100 GPU 类似。然而,为了符合法规要求,它的 FP64 计算性能和 NVlink 带宽有所降低。具体而言,H800 SXM 节点中的 NVlink 带宽从 900 GB/s 降至了 400 GB/s。节点内扩展带宽的显著降低对高性能工作负载构成了挑战。为了弥补这一缺陷,每个节点都配备了八个 400G Infiniband (IB) CX7 网卡,以增强扩展能力,从而弥补带宽不足。
为了解决这些硬件限制,DeepSeek-V3 模型融入了多项与硬件优势和局限性相符的设计考量。
硬件感知型并行化设计
为了适应 H800 架构的限制,DeepSeek-V3 考虑了这些并行策略:避免张量并行 (TP)、增强 Pipeline 并行 (PP)、加速专家并行 (EP)。对这些策略的具体说明请访问原论文。
模型协同设计:节点受限式路由
在 H800 架构中,纵向扩展(scale-up,节点内)和横向扩展(scale-out,节点间)通信之间的带宽差异约为 4:1。具体而言,NVlink 可提供 200GB/s 的带宽(其中实际可实现约 160GB/s),而每个 400Gbps IB 网卡仅提供 50GB/s 的带宽(考虑到较小的消息大小和延迟影响,有效带宽为 40GB/s)。为了平衡并充分利用更高的节点内带宽,模型架构与硬件进行了协同设计,尤其是在 TopK 专家选择策略方面。
假设一个包含 8 个节点(共 64 台 GPU)和 256 个路由专家(每台 GPU 4 个专家)的设置。对于 DeepSeek-V3,每个 token 会被路由到 1 个共享专家和 8 个路由专家。如果 8 个目标专家分布在所有 8 个节点上,则通过 IB 的通信时间将为 8
0 条