BLOOMChat 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
BLOOMChat 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
BLOOMChat 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 未知
操作系统 跨平台
软件类型 开源软件
开源组织
地区 不详
投 递 者 白开水不加糖
适用人群 未知
收录时间 2023-05-22

软件简介

BLOOMChat 是一个 1760 亿参数的多语言聊天模型。它是由 BLOOM(176B) 在助理式的对话数据集上进行指导调整的,并支持多种语言的对话、问题回答和生成性答案。

BLOOMChat 是一个新的、开放的、多语言的聊天 LLM。SambaNova 和 Together 使用 SambaNova 独特的可重构数据流架构在 SambaNova DataScale 系统上训练了 BLOOMChat;其建立在 BigScience 组织的 BLOOM 之上,并在 OpenChatKit、Dolly 2.0 和 OASST1 的 OIG 上进行了微调。

BLOOM 已经是最大的多语言开放模型,在 46 种语言上进行了训练,是由 1000 多名研究人员联合进行的国际合作开发。SambaNova 在 Apache 2.0 许可证的修改版下发布了 BLOOMChat,其中包括 BLOOM 的 RAIL 许可中基于使用的限制。

示例:

方法

数据采集

在开发 BLOOMChat 时,项目团毒旨在结合合成对话数据和高质量人工编写示例的优势。首先利用大型合成对话数据集 OpenChatKit 为模型的聊天功能奠定基础。为了增强模型的性能和人工对齐,随后在人工生成的数据集 Dolly 2.0 和 OASST1 上对其进行了训练,其中包含少量高质量示例。

训练

使用 RDU(可重构数据流单元)在 SambaNova DataScale 系统上训练 BLOOMChat。从 BLOOM-176B 开始,然后在 OpenChatKit 上对 BLOOM-176B 进行了指令调整,每个数据源在一个时期内二次采样到 100k,然后在组合的 OpenChatKit 和 Dolly-v2 做 3 轮 fine tune

用于准备数据集的所有代码以及用于运行训练和推理的脚本都是开源的,可以在 SambaNova 的 GitHub上免费获得。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击引领话题📣 发布并加入讨论🔥
发表了资讯
2023/05/23 08:41

BLOOMChat:176B 的开源可商用多语言聊天 LLM

SambaNova 与 Together 两家公司合作开源了可商用的 BLOOMChat,一个 1760 亿参数的多语言聊天大语言模型 (LLM)。由 BLOOM(176B) 在助理式的对话数据集上进行指导调整,并支持多种语言的对话、问题回答和生成性答案。 根据介绍,BLOOMChat 是一个新的、开放的、多语言的聊天 LLM。SambaNova 和 Together 使用 SambaNova 独特的可重构数据流架构在 SambaNova DataScale 系统上训练了 BLOOMChat;其建立在 BigScience 组织的 BLOO...

2
16
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
0 评论
10 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部