YaLM 100B 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
YaLM 100B 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
YaLM 100B 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache 2.0
开发语言 Python
操作系统 跨平台
软件类型 开源软件
开源组织
地区 不详
投 递 者 罗奇奇
适用人群 未知
收录时间 2022-06-24

软件简介

YaLM 100B是一个类似 GPT 的神经网络,用于生成和处理文本。

该模型利用了 1000 亿个参数,在 800 个 A100 显卡和 1.7 TB 在线文本、书籍以及海量其他英文和俄文资源的集群上训练该模型花了 65 天时间。

设置

在下载权重之前,请确保有 200GB 的可用磁盘空间。该模型(代码基于 microsoft/DeepSpeedExamples/Megatron-LM-v1.1.5-ZeRO3应该在具有张量并行性的多个 GPU 上运行。它在 4 个 (A100 80g) 和 8 个 (V100 32g) GPU 上进行了测试,能使用总计约 200GB 的 GPU 内存来正确划分权重维度(例如 16、64、128)的不同配置。

用法

可以从以下脚本开始:

  • examples/generate_interactive.sh:从命令行交互式生成,尝试模型的最简单方法。
  • examples/generate_conditional_sampling.sh:带采样策略的条件生成。默认使用top-p,随意更改温度或使用top-k。输入是 jsonlines(例如:examples/example_cond_input.json),输出将是相同的 jsonlines,并且每行都添加了生成的文本字段。
  • examples/generate_conditional_greedy.sh: 和上文一样,但是一代是贪婪的。
  • examples/generate_unconditional.sh: 无条件生成。不使用输入,输出将是 jsonlines。
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击引领话题📣
发表了资讯
06/24 09:04

Yandex 开源 YaLM 100B:千亿参数的类 GPT 模型

俄罗斯搜索巨头 Yandex 发布了 YaLM 100B ,它是一个利用了 1000 亿个参数、类似 GPT 的神经网络,用于生成和处理文本。目前该模型基于 Apache 2.0 许可托管在 GitHub 上。 Yandex 花了 65 天的时间在包含 800 个 A100 显卡和 1.7 TB 在线文本、书籍和无数其他资源的池中训练了模型。YaLM 高级开发人员 Mikhail Khrushchev 在 Medium 上发布了一篇博客,详细介绍了训练该模型的经验,包含如何加速模型训练、如何处理分歧等技术细...

1
5
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
0 评论
1 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部