DeepSeekMoE 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
DeepSeekMoE 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
DeepSeekMoE 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 MIT
开发语言 Python 查看源码 »
操作系统 跨平台
软件类型 开源软件
开源组织
地区 国产
投 递 者
适用人群 未知
收录时间 2024-01-12

软件简介

DeepSeekMoE 是开源 MoE 大模型,据称其多尺度(2B->16B->145B)模型效果均领先同类项目:

  • DeepSeekMoE-2B 可接近 MoE 模型的理论上限 2B Dense 模型性能(即相同 Attention/FFN 参数配比的 2B Dense 模型),仅用了 17.5% 计算量
  • DeepSeekMoE-16B 性能比肩 LLaMA2 7B 的同时,仅用了 40% 计算量,也是本次主力开源模型,40G 显存可单卡部署
  • DeepSeekMoE-145B 上的早期实验进一步证明该 MoE 架构明显领先于 Google 的 MoE 架构 GShard,仅用 28.5%(甚至 18.2%)计算量即可匹配 67B Dense 模型的性能

DeepSeekMoE 采用自研的全新 MoE 框架,主要包含两大创新:

  • 细粒度专家划分:不同于传统MoE直接从与标准FFN大小相同的N个专家里选择激活K个专家(如Mistral 7B8 采取8个专家选2专家),DeepSeekMoE把N个专家粒度划分更细,在保证激活参数量不变的情况下,从mN个专家中选择激活mK个专家(如DeepSeekMoE 16B 采取64个专家选8个专家),如此可以更加灵活地组合多个专家
  • 共享专家分离:DeepSeekMoE把激活专家区分为共享专家(Shared Expert)和独立路由专家(Routed Expert),此举有利于将共享和通用的知识压缩进公共参数,减少独立路由专家参数之间的知识冗余

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击引领话题📣 发布并加入讨论🔥
发表了资讯
01/12 11:12

幻方量化开源国内首个 MoE 大模型:DeepSeekMoE

幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 —— DeepSeekMoE,全新架构,免费商用。 今年 4 月,幻方量化发布公告称,公司将集中资源和力量,全力投身到服务于全人类共同利益的人工智能技术之中,成立新的独立研究组织,探索 AGI 的本质。幻方将这个新组织命名为“深度求索 (DeepSeek)”。 DeepSeekMoE 的模型、代码、论文均已同步发布。 模型下载:https://huggingface.co/deepseek-ai 微调代码:https://githu...

0
7
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
0 评论
7 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部