近年来,大型语言模型(LLMs)的发展突飞猛进,逐步缩小了与通用人工智能(AGI)的差距。DeepSeek-AI 团队最新发布的 DeepSeek-V3,作为一款强大的混合专家模型(Mixture-of-Experts, MoE),凭借其高效的架构和创新的训练策略,成为了当前最强的开源模型之一。本文将带您深入了解 DeepSeek-V3 的技术亮点及其在性能上的卓越表现。
DeepSeek-V3 采用了 Multi-head Latent Attention (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中已经得到了充分验证。MLA 通过低秩压缩技术减少了推理时的 Key-Value 缓存,显著提升了推理效率。DeepSeekMoE 则通过细粒度的专家分配和共享专家机制,实现了经济高效的训练。

DeepSeek-V3 首次引入了 无辅助损失的负载均衡策略,避免了传统方法中因强制负载均衡而导致的模型性能下降。通过动态调整专家偏置,模型在训练过程中保持了良好的负载均衡,同时提升了整体性能。
DeepSeek-V3 采用了 多令牌预测(Multi-Token Prediction, MTP) 的训练目标,扩展了每个位置的预测范围。这一策略不仅提高了数据效率,还使得模型能够更好地预规划未来令牌的表示,从而在推理时加速生成过程。

DeepSeek-V3 支持 FP8 混合精度训练,通过精细的量化策略和高精度累加,显著降低了训练时的 GPU 内存占用和计算开销。这一创新使得 DeepSeek-V3 在保持高性能的同时,大幅降低了训练成本。
DeepSeek-V3 的预训练仅消耗了 2664K H800 GPU 小时,总训练成本约为 557.6 万美元。这一成本远低于其他同级别模型,得益于 DeepSeek 团队在算法、框架和硬件上的协同优化。
DeepSeek-V3 通过两阶段的上下文扩展训练,将最大上下文长度从 4K 扩展到 128K,并在长上下文任务中表现出色。例如,在 'Needle In A Haystack' 测试中,DeepSeek-V3 在 128K 上下文长度下依然保持了强大的性能。
DeepSeek-V3 的推理部署采用了 预填充(Prefilling) 和 解码(Decoding) 分离的策略,确保了在线服务的高吞吐量和低延迟。通过冗余专家部署和动态路由策略,模型在推理时保持了高效的负载均衡。
DeepSeek-V3 在多个基准测试中表现优异,尤其是在 代码 和 数学 任务上,超越了其他开源模型,甚至与领先的闭源模型(如 GPT-4o 和 Claude-3.5-Sonnet)不相上下。

在 MMLU、MMLU-Pro 和 GPQA 等教育类基准测试中,DeepSeek-V3 的表现优于所有其他开源模型,尤其是在中文事实性知识(Chinese SimpleQA)上,甚至超越了 GPT-4o 和 Claude-3.5-Sonnet。
DeepSeek-V3 在代码竞赛基准测试(如 LiveCodeBench)中表现最佳,成为该领域的领先模型。在数学推理任务中,DeepSeek-V3 也展现了强大的能力,尤其是在 MATH-500 等复杂数学问题上,表现尤为突出。
在 DROP、LongBench v2 和 FRAMES 等长上下文理解任务中,DeepSeek-V3 表现优异,尤其是在处理 100K 以上上下文的任务中,展现了其强大的长上下文处理能力。
尽管 DeepSeek-V3 已经取得了显著的成就,但团队依然在探索更多的优化方向:
团队计划进一步研究 Transformer 架构的局限性,探索更高效的模型架构,以支持无限上下文长度。
团队将继续迭代训练数据的数量和质量,探索更多维度的数据扩展,以进一步提升模型的性能。
通过扩展模型的推理长度和深度,团队希望进一步提升模型的智能水平和问题解决能力。
为了避免模型在固定基准测试上的过度优化,团队计划探索更全面的模型评估方法,确保模型的真实能力得到准确反映。
DeepSeek-V3 的发布标志着开源模型在性能上迈上了一个新的台阶。通过创新的架构设计、高效的训练策略和经济的成本控制,DeepSeek-V3 不仅成为了当前最强的开源模型之一,也为未来的 AI 研究提供了宝贵的参考。我们期待 DeepSeek 团队在未来的研究中继续突破,推动开源模型向 AGI 的目标稳步迈进。
DeepSeek-V3 Technical Report