​小红书发布首个开源大模型 dots.llm1

来源: OSCHINA
2025-06-09 10:38:00

小红书hi lab(Humane Intelligence Lab,人文智能实验室)团队宣布首次开源文本大模型 dots.llm1,一个中等规模的Mixture of Experts (MoE)文本大模型。hi lab团队开源了所有模型和必要的训练信息,包括Instruct模型、长文base模型、退火阶段前后的多个base模型及超参数等内容。

dots.llm1的基本情况:

  • 模型参数:总参数量142B、激活参数14B
  • MoE配置:6in128 Expert、2个共享Expert
  • 预训练数据:11.2T token高质量数据,显著优于开源数据
  • 训练效率:基于Interleaved 1F1B 流水并行的AlltoAll overlap和高效Grouped GEMM的MoE训练框架

在预训练阶段,dots.llm1一共使用了11.2T 高质量token,然后经过两阶段sft训练,得到dots.llm1 base模型和instruct模型,在综合指标上打平Qwen2.5 72B模型,具体指标对照情况如下:

关于dots.llm1开源,hi lab团队声称其做到了迄今为止行业最大力度:

  • 开源dots.llm1.inst模型,做到开箱即用
  • 开源一系列pretrain base模型,包括预训练过程中每经过1T tokens后所保存的checkpoint——是目前开源中间checkpoint模型中,首个参数超过千亿的大模型
  • 退火两阶段训练对应的模型checkpoint
  • 长文base模型
  • 详细介绍了lr schedule和batch size等信息,便于大家做Continue Pretraining和Supervised Fine-tuning
  • 基于Interleave1F1B流水并行的AlltoAll overlap优化已经提交至NVIDIA Megatron-LM社区,会在未来一段时间正式发版

更多详情可查看官方公告

展开阅读全文
点击引领话题📣 发布并加入讨论🔥
0 评论
0 收藏
分享
返回顶部
顶部