DeepSeek-V3 是一个强大的 Mixture-of-Experts (MoE) 语言模型,它拥有671B个总参数,每个 token 有37B个激活参数。
为了实现高效推理和低成本训练,DeepSeek-V3采用了 Multi-head Latent Attention (MLA) 和DeepSeekMoE架构,这在DeepSeek-V2中得到了充分验证。
此外,DeepSeek-V3 还采用了 auxiliary-loss-free 的负载均衡策略,并设定了多 token 预测训练目标,以提高性能。项目团队在14.8万亿个不同的高质量 token 上对DeepSeek-V3进行预训练,然后在监督微调和强化学习阶段充分发挥其能力。
综合评估显示,DeepSeek-V3的性能优于其他开源模型,并可与领先的闭源模型相媲美。尽管性能卓越,DeepSeek-V3 的全部训练仅需 2.788M H800 GPU 小时。此外,其训练过程也非常稳定。在整个训练过程中,没有遇到任何不可恢复的损失峰值,也没有进行任何回滚。
评论