TOGETHER 宣布其 RedPajama 7B 已完成所有训练,并在 Apache 2.0 许可下全部开源。
RedPajama 是一个开源可商用大模型项目,由 TOGETHER 联合蒙特利尔大学的 AAI CERC 实验室、EleutherAI 和 LAION 共同发起。目前包括一个基于 LLaMA 论文的 RedPajama 基础数据集(5 TB 大小),自 4 月份发布至今已被下载数千次,并被用来训练了 100 多个模型;以及一个在 5 月份就宣布训练完成的 RedPajama 3B,和刚宣布训练完成的 RedPajama 7B 大模型。
其中,Base 模型是基础大语言模型,在 RedPajama 数据集上进行了训练,采用和 Pythia 模型一样的架构。LM Harness 结果:
Instruct 则是基于 Base 模型针对 few-shot prompts 微调的结果,通过对 P3 (BigScience) 和 Natural Instruction (AI2) 的各种 NLP 任务进行训练,针对少样本性能进行了优化。Instruct 版本在少数几个任务上表现出优异的性能,超过了类似规模的领先开放模型;RedPajama-INCITE-7B-Instruct 似乎是此类规模下最好的开放式指令模型。HELM 基准测试结果:
此外,官方还宣布正在开发新版本的 RedPajama,即 RedPajama2,目标是在 2-3T tokens 数据集上进行训练。主要有以下规划:
更多详情可查看官方博客。
评论删除后,数据将无法恢复
70 亿参数大语言模型 RedPajama 7B 完整版发布,开源可商用
TOGETHER 宣布其 RedPajama 7B 已完成所有训练,并在 Apache 2.0 许可下全部开源。
RedPajama 是一个开源可商用大模型项目,由 TOGETHER 联合蒙特利尔大学的 AAI CERC 实验室、EleutherAI 和 LAION 共同发起。目前包括一个基于 LLaMA 论文的 RedPajama 基础数据集(5 TB 大小),自 4 月份发布至今已被下载数千次,并被用来训练了 100 多个模型;以及一个在 5 月份就宣布训练完成的 RedPajama 3B,和刚宣布训练完成的 RedPajama 7B 大模型。
其中,Base 模型是基础大语言模型,在 RedPajama 数据集上进行了训练,采用和 Pythia 模型一样的架构。LM Harness 结果:
Instruct 则是基于 Base 模型针对 few-shot prompts 微调的结果,通过对 P3 (BigScience) 和 Natural Instruction (AI2) 的各种 NLP 任务进行训练,针对少样本性能进行了优化。Instruct 版本在少数几个任务上表现出优异的性能,超过了类似规模的领先开放模型;RedPajama-INCITE-7B-Instruct 似乎是此类规模下最好的开放式指令模型。HELM 基准测试结果:
此外,官方还宣布正在开发新版本的 RedPajama,即 RedPajama2,目标是在 2-3T tokens 数据集上进行训练。主要有以下规划:
更多详情可查看官方博客。