书库技术与未来DeepSeek-V3 Technical Report
书籍封面

DeepSeek-V3 Technical Report

作者 DeepSeek-AI
15.0 分钟

摘要

DeepSeek-V3 技术报告总结

  • DeepSeek-V3 是一个强大的混合专家模型,总参数达 6710 亿,每个token激活 370 亿参数。它采用 MLA 架构和 DeepSeekMoE 架构,具有高效推理和经济的训练成本。该模型在 14.8 万亿 token 的多样化高质量数据集上进行预训练,并在多个基准测试中优于其他开源模型。
  • 你能获得:深入了解 DeepSeek-V3 的架构设计、训练策略和性能表现,为构建和优化大型语言模型提供参考。

核心内容:

1. 架构创新:

  • DeepSeek-V3 采用了多头潜在注意力(MLA)机制,减少了推理过程中的 KV 缓存,提高了效率。
    • 详细解释:MLA 通过低秩联合压缩注意力键和值,显著减少了 KV 缓存的需求,同时保持了与标准多头注意力(MHA)相当的性能。
  • DeepSeekMoE 架构通过细粒度的专家设计和辅助损失自由的负载均衡策略,实现了成本效益高的训练。
    • 详细解释:DeepSeekMoE 使用更细粒度的专家,并隔离部分专家作为共享专家,以提高计算效率和模型性能。
  • 辅助损失自由的负载均衡策略,减少了因负载均衡而对模型性能产生的负面影响。
    • 详细解释:该策略通过引入偏差项动态调整专家负载,避免了传统辅助损失方法对模型性能的损害。
  • 多 Token 预测(MTP)目标,增强了模型在评估基准上的整体性能。
    • 详细解释:MTP 通过在每个位置预测多个未来 token,增加了训练信号的密度,提高了数据效率。

2. 训练基础设施:

  • DeepSeek-V3 在配备 2048 个 NVIDIA H800 GPU 的集群上进行训练。
    • 详细解释:每个 H800 节点包含 8 个 GPU,通过 NVLink 和 NVSwitch 在节点内连接,跨节点则使用 InfiniBand(IB)互连进行通信。
  • HAI-LLM 框架支持高效训练,采用 16 路流水线并行(PP)、64 路专家并行(EP)和 ZeRO-1 数据并行(DP)。
    • 详细解释:HAI-LLM 框架通过优化流水线并行、专家并行和数据并行,实现了高效的模型训练。
  • DualPipe 算法通过重叠正向和反向计算-通信阶段,减少了流水线气泡,解决了跨节点专家并行引入的通信开销问题。
    • 详细解释:DualPipe 算法采用双向流水线调度,同时从流水线的两端馈送微批次,显著减少了流水线气泡并充分重叠了通信。
  • 定制高效的跨节点全对全通信内核,充分利用 IB 和 NVLink 带宽。
    • 详细解释:通过warp specialization技术和自动调整通信块大小,减少了L2缓存的使用和对其他SM的干扰,从而高效利用通信带宽。
  • 采用 FP8 混合精度训练框架,加速训练并减少 GPU 内存使用。
    • 详细解释:该框架在大多数计算密集型操作中使用 FP8 精度,同时对关键操作保持原始数据格式,以平衡训练效率和数值稳定性。

3. 预训练:

  • DeepSeek-V3 在 14.8T 高质量和多样化的 token 上进行预训练,数据构造优化了数学和编程样本的比例,并扩展了多语言覆盖范围。
    • 详细解释:预训练语料库通过增强数学和编程样本的比例,并扩展多语言覆盖范围,提高了模型的性能。
  • 采用文档填充方法,但不在训练期间合并交叉样本注意力掩码。
  • 使用具有 128K token 的扩展词汇表的 Byte-level BPE tokenizer。
    • 详细解释:tokenizer的预tokenizer和训练数据经过修改,优化了多语言压缩效率,并引入了结合标点符号和换行符的token。

4. 后期训练:

  • 采用监督式微调(SFT)和强化学习(RL)对 DeepSeek-V3 的基础模型进行对齐,以符合人类偏好并进一步释放其潜力。
    • 详细解释:通过 SFT 和 RL,DeepSeek-V3 在指令遵循、对话生成和创造性写作等任务中表现出色。
  • 从 DeepSeek-R1 系列模型中提取推理能力,并仔细维护模型准确性和生成长度之间的平衡。
    • 详细解释:通过从 R1 模型中提取推理能力,DeepSeek-V3 在数学、代码和逻辑推理任务中取得了显著提升。

5. 硬件设计建议:

  • 建议 AI 硬件供应商开发能够将通信任务从 SM 卸载的硬件,例如 GPU 协处理器或网络协处理器。
    • 详细解释:当前的通信实现依赖于昂贵的 SM,限制了计算吞吐量,而专用硬件可以更高效地处理通信任务。
  • 提高 Tensor Core 中 FP8 GEMM 的累积精度,以支持全精度累积。
    • 详细解释:当前的 Tensor Core 实现中,FP8 GEMM 采用固定点累积,建议增加累积精度以支持全精度累积,减少误差。
  • 支持分块量化,使 Tensor Core 能够接收缩放因子并实施具有分组缩放的 MMA。
    • 详细解释:当前 GPU 仅支持按张量量化,建议支持细粒度量化,通过使 Tensor Core 能够接收缩放因子并实施具有分组缩放的 MMA,以避免频繁的数据移动。
  • 支持在线量化,建议将 FP8 cast 和 TMA 访问集成到一个融合操作中,以避免频繁的内存读取和写入。
    • 详细解释:在线量化需要读取 128 个 BF16 激活值进行量化,并写回 HBM,建议将 FP8 cast 和 TMA 访问集成到一个融合操作中,以减少内存访问。
  • 支持转置 GEMM 操作,使矩阵转置与 GEMM 操作融合,减少内存操作。

问答:

Q: DeepSeek-V3 的主要架构创新是什么?

A: DeepSeek-V3 的主要架构创新包括:多头潜在注意力(MLA)机制,减少 KV 缓存;DeepSeekMoE 架构,实现成本效益高的训练;辅助损失自由的负载均衡策略,减少性能损害;多 Token 预测(MTP)目标,增强整体性能。

Q: DeepSeek-V3 是如何实现高效训练的?

A: DeepSeek-V3 通过以下方式实现高效训练:采用 HAI-LLM 框架,优化流水线并行、专家并行和数据并行;DualPipe 算法减少流水线气泡并充分重叠通信;定制高效的跨节点全对全通信内核;采用 FP8 混合精度训练框架,加速训练并减少 GPU 内存使用。

Q: DeepSeek-V3 在哪些方面表现出色?

A: DeepSeek-V3 在多个基准测试中表现出色,尤其在代码、数学和推理任务中。它超越了其他开源模型,并在标准和开放式基准测试中与 GPT-4o 和 Claude-3.5-Sonnet 等领先的闭源模型相媲美。

思维导图

目标读者

DeepSeek-V3的目标读者包括人工智能研究人员、自然语言处理工程师、机器学习从业者以及对大型语言模型技术感兴趣的开发者。该技术报告详细介绍了模型的架构、训练方法和性能评估,适合希望了解最新LLM技术进展的专业人士。此外,对于那些希望在开源LLM基础上进行二次开发或将其应用于实际场景的开发者,DeepSeek-V3也提供了有价值的参考。

作者背景

DeepSeek-AI是一家专注于人工智能研究的机构,致力于推动开源语言模型的发展。他们拥有一支由工程师和研究人员组成的团队,在模型架构、训练框架和硬件优化方面都有深入的研究和实践经验。DeepSeek-AI通过开源其模型和技术报告,促进了AI社区的合作和知识共享。

历史背景

近年来,大型语言模型(LLM)经历了快速的迭代和发展,逐渐缩小了与通用人工智能(AGI)的差距。除了闭源模型外,包括DeepSeek系列、LLaMA系列、Qwen系列和Mistral系列在内的开源模型也在取得显著进展,努力缩小与闭源模型的差距。DeepSeek-V3正是在这一背景下,为了进一步推动开源模型的能力边界而诞生的。

章节摘要

音频

Coming Soon...