小红书hi lab(Humane Intelligence Lab,人文智能实验室)团队宣布首次开源文本大模型 dots.llm1,一个中等规模的Mixture of Experts (MoE)文本大模型。hi lab团队开源了所有模型和必要的训练信息,包括Instruct模型、长文base模型、退火阶段前后的多个base模型及超参数等内容。
dots.llm1的基本情况:
- 模型参数:总参数量142B、激活参数14B
- MoE配置:6in128 Expert、2个共享Expert
- 预训练数据:11.2T token高质量数据,显著优于开源数据
- 训练效率:基于Interleaved 1F1B 流水并行的AlltoAll overlap和高效Grouped GEMM的MoE训练框架
在预训练阶段,dots.llm1一共使用了11.2T 高质量token,然后经过两阶段sft训练,得到dots.llm1 base模型和instruct模型,在综合指标上打平Qwen2.5 72B模型,具体指标对照情况如下:
关于dots.llm1开源,hi lab团队声称其做到了迄今为止行业最大力度:
- 开源dots.llm1.inst模型,做到开箱即用
- 开源一系列pretrain base模型,包括预训练过程中每经过1T tokens后所保存的checkpoint——是目前开源中间checkpoint模型中,首个参数超过千亿的大模型
- 退火两阶段训练对应的模型checkpoint
- 长文base模型
- 详细介绍了lr schedule和batch size等信息,便于大家做Continue Pretraining和Supervised Fine-tuning
- 基于Interleaved 1F1B流水并行的AlltoAll overlap优化已经提交至NVIDIA Megatron-LM社区,会在未来一段时间正式发版
更多详情可查看官方公告。