DevOps研发效能
媒体矩阵
开源中国APP
授权协议 MIT
开发语言 Python 查看源码 »
操作系统 跨平台
软件类型 开源软件
开源组织
地区 国产
投 递 者
适用人群 未知
收录时间 2024-01-12

软件简介

DeepSeekMoE 是开源 MoE 大模型,据称其多尺度(2B->16B->145B)模型效果均领先同类项目:

  • DeepSeekMoE-2B 可接近 MoE 模型的理论上限 2B Dense 模型性能(即相同 Attention/FFN 参数配比的 2B Dense 模型),仅用了 17.5% 计算量
  • DeepSeekMoE-16B 性能比肩 LLaMA2 7B 的同时,仅用了 40% 计算量,也是本次主力开源模型,40G 显存可单卡部署
  • DeepSeekMoE-145B 上的早期实验进一步证明该 MoE 架构明显领先于 Google 的 MoE 架构 GShard,仅用 28.5%(甚至 18.2%)计算量即可匹配 67B Dense 模型的性能

DeepSeekMoE 采用自研的全新 MoE 框架,主要包含两大创新:

  • 细粒度专家划分:不同于传统MoE直接从与标准FFN大小相同的N个专家里选择激活K个专家(如Mistral 7B8 采取8个专家选2专家),DeepSeekMoE把N个专家粒度划分更细,在保证激活参数量不变的情况下,从mN个专家中选择激活mK个专家(如DeepSeekMoE 16B 采取64个专家选8个专家),如此可以更加灵活地组合多个专家
  • 共享专家分离:DeepSeekMoE把激活专家区分为共享专家(Shared Expert)和独立路由专家(Routed Expert),此举有利于将共享和通用的知识压缩进公共参数,减少独立路由专家参数之间的知识冗余

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击引领话题📣 发布并加入讨论🔥
发表了资讯
2024/12/23 10:37

DeepSeek 开源大模型关键开发者之一罗福莉将加入小米

第一财经「新皮层」独家获悉,DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉将加入小米,或供职于小米AI实验室,领导小米大模型团队。 知情人士称,雷军认为小米在大模型领域发力太晚,于是亲自挖人,重金招募能够领军小米大模型的人才,支付的薪酬水平在千万元级别。 小米AI实验室正式成立于2016年年初,目前团队大约有250人,研究方向包括视觉、声学、语音、自然语言处理(NLP)、知识图谱、机器学习和大模型。 根据公...

1
0
发表了资讯
2024/12/11 11:18

深度求索宣布 DeepSeek V2 系列收官,联网搜索上线官网

深度求索发布了 DeepSeek V2.5 的最终版微调模型 DeepSeek-V2.5-1210。据称该版本模型是对 V2 系列的最后一次更新。 与之前版本相比,本次更新通过 Post-Training 全面提升了模型各方面能力表现,包括数学、代码、写作、角色扮演等;同时,新版模型优化了文件上传功能,并且全新支持了联网搜索,展现出更加强大的全方位服务于各类工作生活场景的能力。 模型通用能力提升 DeepSeek-V2.5-1210 版本通过 Post-Training 阶段的迭代,...

0
0
发表了资讯
2024/11/25 11:02

DeepSeek 发布推理模型 DeepSeek-R1-Lite 预览版

据深度求索官方消息,DeepSeek 全新研发的推理模型 DeepSeek-R1-Lite 预览版已正式上线。 登录 chat.deepseek.com,在输入框中选择“深度思考”模式,即可开启与 DeepSeek-R1-Lite 预览版的对话。 “深度思考” 模式专门针对数学、代码等各类复杂逻辑推理问题而设计,相比于普通的简单问题,能够提供更加全面、清晰、思路严谨的优质解答,充分展现出较长思维链的更多优势。 对话开启示例: DeepSeek R1 系列模型使用强化学习训练...

2
0
发表了资讯
2024/07/19 11:38

DeepSeek-V2 登上全球开源大模型榜首

美国时间 2024年7月16日,LMSYS 组织的大模型竞技场(Chatbot Arena)更新结果发布,DeepSeek-V2-0628 超越 Llama3-70B、Qwen2-72B、Nemotron-4-340B、Gemma2-27B 等开源模型,登上全球开源模型榜首。 Chatbot Arena 是全球公认的权威大模型盲测平台,吸引了如 GPT-4、Claude、Llama、Gemini 等众多顶尖模型参与,更有 Yi-Large、Qwen、GLM等国内优秀模型同台竞技。测评方式采用人工盲测,评测者在不知晓模型名字和机构的情况下...

0
1
发表了资讯
2024/07/18 19:10

开源日报 | 小语言模型才是AI未来;Mbed即将EOL;揭秘DeepSeek;Google默认不索引新内容;Hugging Face宣布实现盈利

欢迎阅读 OSCHINA 编辑部出品的开源日报,每天更新一期。 # 2024.7.18 今日要闻 Google 搜索引擎默认不再索引新内容 为了对抗低质量的内容农场和 SEO,Google 搜索引擎过去几年对搜索算法进行了一系列调整,而最新的调整是它默认不再索引新 Web 内容 ("default to not index" )。 这是 Google 对其搜索引擎角色的一次根本性改变。Google 现在只在它认为真正需要时才索引内容: 内容需要足够新颖或能填补其空白,仅仅是内容没有广...

1
1
发表了资讯
2024/05/08 10:09

DeepSeek 发布全球最强开源 MoE 模型

幻方量化旗下组织深度求索发布了第二代开源 MoE 模型:DeepSeek-V2。 据介绍,在目前大模型主流榜单中,DeepSeek-V2均表现出色: 中文综合能力(AlignBench)开源模型中最强,与GPT-4-Turbo,文心4.0等闭源模型在评测中处于同一梯队 英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B同处第一梯队,超过最强MoE开源模型Mixtral 8x22B 知识、数学、推理、编程等榜单结果也位居前列 支持128K上下文窗口 各大模型API或Chat版本效...

0
3
发表了资讯
2024/01/12 11:12

幻方量化开源国内首个 MoE 大模型:DeepSeekMoE

幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 —— DeepSeekMoE,全新架构,免费商用。 今年 4 月,幻方量化发布公告称,公司将集中资源和力量,全力投身到服务于全人类共同利益的人工智能技术之中,成立新的独立研究组织,探索 AGI 的本质。幻方将这个新组织命名为“深度求索 (DeepSeek)”。 DeepSeekMoE 的模型、代码、论文均已同步发布。 模型下载:https://huggingface.co/deepseek-ai 微调代码:https://githu...

0
7
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
0 评论
8 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部