Sky-T1:在 450 美元以内训练你自己的 O1 预览模型。
该存储库包含了用于 Sky-T1-32B-Preview 数据管理、训练和评估的代码和脚本的源代码,可以在每个目录中找到更多详细信息。
/data
:用于训练 Sky-T1-32B-Preview 的 17k 训练数据。还添加了来自STILL-2 模型的 science 和 riddle 部分。skythought/tools
:Sky-T1 的训练数据管理和评估。为了生成训练数据,项目团队使用了 QwQ-32B-Preview 模型。整理 data mixture 以涵盖需要推理的不同领域,并采用拒绝采样程序来提高数据质量。skythought/train
:Sky-T1 的训练脚本。使用 Llama-Factory 进行训练。该模型训练了 3 epochs,学习率为 1e-5,批处理大小为 96。模型训练耗时约 19 小时,使用了 8 台 Nvidia H100 GPU,成本约为 450 美元。
评论