DeepSeek-V3 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
DeepSeek-V3 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
DeepSeek-V3 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 MIT
开发语言 Python
操作系统 跨平台
软件类型 开源软件
开源组织
地区 国产
投 递 者 白开水不加糖
适用人群 未知
收录时间 2024-12-27

软件简介

DeepSeek-V3 是一个强大的 Mixture-of-Experts (MoE) 语言模型,它拥有671B个总参数,每个 token 有37B个激活参数。

为了实现高效推理和低成本训练,DeepSeek-V3采用了  Multi-head Latent Attention (MLA) 和DeepSeekMoE架构,这在DeepSeek-V2中得到了充分验证。

此外,DeepSeek-V3 还采用了 auxiliary-loss-free 的负载均衡策略,并设定了多 token 预测训练目标,以提高性能。项目团队在14.8万亿个不同的高质量 token 上对DeepSeek-V3进行预训练,然后在监督微调和强化学习阶段充分发挥其能力。

综合评估显示,DeepSeek-V3的性能优于其他开源模型,并可与领先的闭源模型相媲美。尽管性能卓越,DeepSeek-V3 的全部训练仅需 2.788M H800 GPU 小时。此外,其训练过程也非常稳定。在整个训练过程中,没有遇到任何不可恢复的损失峰值,也没有进行任何回滚。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(1) 发布并加入讨论🔥
发表了资讯
前天 16:28

DeepSeek 官网全球日访问量超越谷歌 Gemini

据 SimilarWeb 数据显示,DeepSeek.com 的日访问量已经超过了谷歌的 Gemini 和 Character.AI。 报告显示 DeepSeek 的 V3 模型在第三方基准测试中表现优于 Meta 的 Llama 3.1、OpenAI 的 GPT-4o 以及阿里巴巴的 Qwen 2.5,且成本显著更低,这使得 DeepSeek 的热度急剧攀升。 SimilarWeb 的数据显示,DeepSeek.com 在上周二(1 月 27 日)创下了 4900 万次访问量的纪录,与前一周相比增长了 614%。 这一数字不包括基于应用的流量,...

4
0
发表了资讯
前天 10:55

DeepSeek 的 GitHub star 数超过 OpenAI

2月7日消息,DeepSeek项目在GitHub上的Star量超过了OpenAI。 截至本周五下午两点,DeepSeek旗下热度最高的项目DeepSeek-V3大模型Star量已达7.77万,超越了同平台中OpenAI最热门项目。 DeepSeek-V3 模型于 2024 年 12 月 26 日发布,官方表示,DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。该模型的多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶...

0
0
发表了资讯
前天 10:48

奇安信:发现 2650 个仿冒 DeepSeek 的网站,60% 域名解析 IP 位于美国

近日,奇安信XLab实验室发布报告称,仿冒DeepSeek的网站、钓鱼网站已经超过2千个,并还在快速增加中,用户需要高度警惕。 报告提到,这些仿冒网站利用相似的域名和界面来误导用户,用来传播恶意软件、窃取个人信息或骗取订阅费用。这类模仿现象,有的可能只是出于商业目的,想借助DeepSeek的热度售卖有前途的域名或者吸引用户;但也有不少恶意行为者,利用相似的域名和界面来误导用户,甚至传播恶意软件、窃取个人信息或骗取订阅...

0
0
发表了资讯
02/07 19:08

龙芯处理器成功运行 DeepSeek 大模型

龙芯中科官方宣布,搭载龙芯 3 号 CPU 的设备成功启动运行 DeepSeek R1-7B 模型,实现本地化部署,性能卓越,成本优异。 据介绍,龙芯日前联合太初元碁等产业伙伴,仅用 2 小时即在太初 T100 加速卡上完成 DeepSeek-R1 系列模型的适配工作,快速上线包含 DeepSeek-R1-Distill-Qwen-7B 在内的多款大模型服务。 目前,龙芯正积极携手太初元碁、寒武纪、天数智芯、算能科技、openEuler 等合作伙伴,全力打造 DeepSeek 系列模型的多...

1
0
发表了资讯
02/06 18:10

回顾 DeepSeek “全球出圈”前后值得关注的 AI 大模型要闻

农历新年假期前后短短十来天,AI 大模型领域几乎每天都有新的惊喜:多模态进一步成熟,Agent形态百花齐放,云平台和终端算力竞相拥抱开源模型。 一起来看看过去这半个月到底发生了什么。 DeepSeek 打响 “第一枪” 春节假期前,2025年1月20日,DeepSeek团队率先发布了全新的DeepSeek-R1模型。其在后训练阶段大规模运用强化学习(RL)技术,显著降低了对人工标注数据的依赖,从而有效减少训练和推理成本。 与此同时,这款模型还通...

0
2
发表了资讯
02/06 14:02

2025 过年期间 AI 科技圈发生了什么?

前言 Hello 大家好,我是Heike07,本来不想更新的,但是AI圈在过年期间发生的事情太炸裂了,有扯淡的,有离谱的,有炒作的,有瞎掰扯的,甚至有魔幻的,那么我们就来盘一下到底发生了什么事情? 众所周知,OpenAI 的 ChatGPT 在 2024 年可谓大杀四方,赚得盆满钵满(尽管 OpenAI 一直宣称自己是非盈利企业)。各类新闻和营销号开始大肆吹捧,但随着新年假期的到来,一个国产 AI 大模型横空出世——DeepSeek-R1。 其实,这个模型...

0
5
发表了资讯
02/06 10:35

DeepSeek 招人 —— 实习生月薪过万、多个岗位年薪百万!

近日,备受关注的人工智能公司DeepSeek(深度求索)高薪招聘人才的信息引发市场关注,「DeepSeek招聘实习生月薪过万」词条登上微博热搜第一。 春节期间,DeepSeek 一举成为最火的一款 AI 应用,根据 AI 产品榜的统计数据显示,自 DeepSeek App 上线后,20 天就已拥有 2000 万的日活跃用户,这也让其成为全球增速最快的 AI 应用。 用户的增多,DeepSeek 也出现了频繁宕机的情况,为了满足业务扩张的需求,在招聘平台, DeepSeek...

0
1
发表了资讯
01/21 19:33

开源日报 | DeepSeek-R1性能对标OpenAI o1;Kimi发布k1.5多模态思考模型;中国自主量子计算编程框架QPanda3发布;哪些AI产品在赚钱?

欢迎阅读 OSCHINA 编辑部出品的开源日报,每天更新一期。 # 2025.1.21 今日要闻 DeepSeek-R1 发布,性能对标 OpenAI o1 正式版 据深度求索 DeepSeek 官方消息,DeepSeek-R1 大模型正式发布,并同步开源模型权重。 DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。 Kimi 全新 SOTA 模型 —— k1.5 多模...

0
1
发表了资讯
01/17 11:09

DeepSeek 官方 App 正式发布,iOS/Android 各应用市场均已上线

DeepSeek官方App已正式发布,上线平台包括苹果App Store、小米应用商店、华为应用市场、荣耀应用市场、OPPO软件商店等。 DeepSeek官方App由DeepSeek-V3模型提供支持。在功能方面,DeepSeek App与网页端完全对标,具备联网搜索功能,可开启深度思考模式,同时还支持文件上传,能够精准扫描并读取各类文件及图片中的文字内容。 此外,该应用与网页端实现了无缝衔接,同一账号内的历史对话记录会实时同步至网页端。 下载地址:htt...

0
1
发表了资讯
01/15 10:33

2024 LLM 年度事件回顾:价格全面下跌、多模态能力爆发……

2025年伊始,Django的作者之一Simon Willison,带我们回顾了2024年AI的重磅进展,堪称大模型的“里程碑”盘点。快来看看有哪些突破,刷新了我们对AI的认知! 原文很长,下面给大家列几个关键点: - GPT-4壁垒被突破:从前,GPT-4 被视为无人能及的高度智能“天花板”,现在,Chatbot Area排行榜上已经有近 70 个模型,超过了2023年3月版本的 GPT-4。谷歌的 Gemini 1.5 Pro 不仅在输出质量上与GPT-4持平,还引入了1百万到2百万的...

0
0
发表了资讯
01/13 20:05

开源日报 | DeepSeek推出移动版APP;开源古汉语模型;论文的标题越来越花里胡哨;“AGI预言”突然增多只是炒作吗?

欢迎阅读 OSCHINA 编辑部出品的开源日报,每天更新一期。 # 2025.1.13 今日要闻 华为余承东 2025 全员信:鸿蒙三分天下有其一,10 万个原生应用是未来半年到一年关键目标 1 月 13 日消息,华为常务董事、终端 BG 董事长、智能汽车解决方案 BU 董事长余承东发布了新年第一封全员信。余承东表示:“时代的洪流冲天下,鸿蒙三分天下有其一,是历史赋予我们这代终端人的责任与使命。” 他还提到,2025 年鸿蒙生态要压强投入,10 万个...

0
1
发表了资讯
01/06 10:24

Deepseek 团队核心成员揭秘 —— 清北应届生撑起一片天

随着 DeepSeek-v3 在 AI 圈异军突起,这家低调的公司再次成为焦点。据量子位调查,DeepSeek 的核心技术力量离不开一群极具天赋的高校学子。 其中,清华、北大的在读生和应届生占据重要位置。 邵智宏:清华交互式人工智能课题组博士生,师从黄民烈教授。曾在微软研究院工作,参与了 DeepSeek-Prover、DeepSeek-Coder-v2 等多个重要项目。 朱琪豪:北大计算机学院 2024 届博士,在校期间就发表了 16 篇 CCF-A 类论文,两次获得 AC...

9
1
发表了资讯
01/02 18:41

开源日报 | Top 15中国互联网公司首次全部盈利;百度网页版新增“AI搜”;DeepSeek V3架构图;AI公司爬虫无视robots.txt协议;2024年度数据库回顾

欢迎阅读 OSCHINA 编辑部出品的开源日报,每天更新一期。 # 2025.1.2 今日要闻 X.Org Server 的代码提交次数创 10 年新高 根据 X.Org Server 的 Git 提交记录,在刚刚过去的 2024 年,X.Org Server 的代码提交次数达到了 2014 年以来的最高峰。虽然提交次数比前几年多了不少,但这并不意味着 X.Org Server 的复兴,因为 Wayland 仍在 Linux 桌面上占据主导地位。 据统计,X.Org Server 去年有 708 次提交... 比起 2018 年的 53...

0
0
发表了资讯
2024/12/27 19:38

开源日报|DeepSeek-V3发布;ChatGPT本月第二次大规模宕机;Ruby 3.4发布;微软与OpenAI发生争执;豆包定价一元的野心

欢迎阅读 OSCHINA 编辑部出品的开源日报,每天更新一期。 # 2024.12.27 今日要闻 DeepSeek-V3 首个版本上线并开源 DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。 论文链接:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3...

0
2
发表了资讯
2024/12/27 10:06

DeepSeek-V3 首个版本上线并开源

DeepSeek-V3 首个版本宣布正式上线并同步开源,用户可登录 chat.deepseek.com 进行使用。 API 服务已同步更新,接口配置无需改动。当前版本的 DeepSeek-V3 暂不支持多模态输入输出。模型API服务定价将调整为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元。 根据介绍,DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。“多项评测成绩超越了 Qwen2.5-72B 和 ...

1
6
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
1 评论
4 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部