RedPajama 项目旨在创建一套领先的全开源大语言模型。目前,该项目已完成了第一步,成功复制了 LLaMA 训练数据集超过 1.2 万亿个数据 token。该项目由Together、Ontocord.ai、ETH DS3Lab、斯坦福大学 CRFM、Hazy Research 和 MILA 魁北克 AI 研究所联合开发。
RedPajama 包含三个主要组成部分:预训练数据、基础模型和指令调优数据与模型。
RedPajama 项目旨在创建一套领先的全开源大语言模型。目前,该项目已完成了第一步,成功复制了 LLaMA 训练数据集超过 1.2 万亿个数据 token。该项目由Together、Ontocord.ai、ETH DS3Lab、斯坦福大学 CRFM、Hazy Research 和 MILA 魁北克 AI 研究所联合开发。
RedPajama 包含三个主要组成部分:预训练数据、基础模型和指令调优数据与模型。
TOGETHER 宣布其 RedPajama 7B 已完成所有训练,并在 Apache 2.0 许可下全部开源。 RedPajama 是一个开源可商用大模型项目,由 TOGETHER 联合蒙特利尔大学的 AAI CERC 实验室、EleutherAI 和 LAION 共同发起。目前包括一个基于 LLaMA 论文的 RedPajama 基础数据集(5 TB 大小),自 4 月份发布至今已被下载数千次,并被用来训练了 100 多个模型;以及一个在 5 月份就宣布训练完成的 RedPajama 3B,和刚宣布训练完成的 RedPajam...
评论