前言
Hello 大家好,我是Heike07,本来不想更新的,但是AI圈在过年期间发生的事情太炸裂了,有扯淡的,有离谱的,有炒作的,有瞎掰扯的,甚至有魔幻的,那么我们就来盘一下到底发生了什么事情?
众所周知,OpenAI 的 ChatGPT 在 2024 年可谓大杀四方,赚得盆满钵满(尽管 OpenAI 一直宣称自己是非盈利企业)。各类新闻和营销号开始大肆吹捧,但随着新年假期的到来,一个国产 AI 大模型横空出世——DeepSeek-R1。
其实,这个模型并非在过年期间发布,而是在假期前几天,也就是 2025 年 1 月 20 日。不过,它的爆火和出圈确实发生在过年期间。那么,这期间到底发生了什么?我们一起来盘一盘。
2025年1月20日,DeepSeek-R1 重磅登场。
我们先来看看这个国产AI大模型究竟是什么?它究竟强在哪里?
首先,熟悉OpenAI的ChatGPT的人应该知道,免费用户可使用的是GPT-3.5和GPT-4o-mini,并受到额度限制。而付费版的ChatGPT-o1则基于深度模型训练的思维链模型。官网上也展示了其显著效果,尤其在Python编程方面表现突出,其他领域也相当出色。当然,奥特曼的推广也相当到位,在各大社交软件上进行宣传,尤其是在X平台上,引发了巨大关注。
然而,只有少数人能享受到这一福利,甚至只能通过购买服务来使用。但有一点需要注意的是,尽管在思考,但思考过程并不对外公开。
因为OpenAI的发展路线是增加显存、扩大模型规模、堆叠模型参数、提升硬件配置和投入资金。模型越大,规模越大,性能越强。越来越多的厂商开始加入这一领域。
然而,随着资金的持续投入,却未见明显回报,这也就引发了人们的质疑。
面对这一挑战,OpenAI提出了另一条发展路径,即通过深度思考来提升结果的准确性,而非单纯追求响应速度。因此,各类厂商纷纷加入研究行列。与此同时,DeepSeek的资本幻方也开始涉足其中。
在新年假期前夕,R1模型正式发布。在此之前,即2024年12月26日,DeepSeek-V3发布了。
该模型能够以极低的成本进行模型研发和落地,赢得了资方厂商的高度好评,同时也对OpenAI构成了威胁。与此同时,国产大模型也在不断涌入AI科技圈,积极参与竞争。
deepseek-v3原理
混合专家架构(MoE): DeepSeekv3采用了混合专家架构,这种架构通过动态选择专家网络来处理输入数据,显著提高了模型的性能和效率。每个专家专注于不同的任务或领域,当模型收到一个任务时,它会将任务分配给最擅长处理该任务的专家去做,从而减少不必要的计算量。
多头潜在注意力机制(MLA): DeepSeekv3在Transformer架构的基础上,引入了多头潜在注意力机制,这种机制能够降低推理显存的消耗,相比传统方法可降低5%—13%的推理显存,同时保持模型性能。
FP8混合精度训练: DeepSeekv3在训练过程中采用了FP8混合精度训练框架,这种训练方法能够在保证训练准确性的同时减少计算量,节省时间和成本,使得大规模模型训练变得更加容易。
无辅助损失负载均衡策略: DeepSeekv3在MoE架构中引入了无辅助损失负载均衡策略,确保各个专家模块的工作负担均匀分配,避免某些模块过载而其他模块闲置,从而提高整个模型的性能。
多Token预测(MTP): 与传统模型逐个预测token不同,DeepSeekv3的多Token预测技术可以一次预测多个token,从而提高模型的推理速度和生成内容的连贯性。
DeepSeek-R1原理
在DeepSeek-V3的基础上,研发了DeepSeek-R1
DeepSeek-R1的原理主要基于强化学习(RL) 和 监督微调(SFT) 的结合。
DeepSeek-R1模型分为两个主要版本:R1-Zero和R1。
R1-Zero完全通过强化学习训练,不使用监督微调,而R1则在R1-Zero的基础上,先进行少量人工标注数据的冷启动微调,然后再进行强化学习。
这里引用B站LLM张老师的技术路线图
第一阶段是冷启动,一开始要收集少量的Long-CoT数据来微调模型,目的是防止早期训练不稳定和可读性差问题。
第二阶段是推理导向的强化学习,它以DeepSeek-V3为基础,针对推理密集型任务,用和R1-Zero相同的大规模RL来进行训练。同时它为了解决语言混杂问题,引入了语言一致性奖励。
第三阶段是拒绝抽样和监督微调,要真正训练R1了,所以它将第一阶段的模型加上一些抽样,结合其他领域的SFT数据,增强模型在写作、角色扮演和其他通用任务中的能力。
第四阶段是适用于所有场景的强化学习,数据准备好、进行微调之后,再以DeepSeek-V3为基础,先是SFT,然后进行所有场景的RL。对于推理任务就用基于规则的奖励来指导,对于一般任务就用RLHF(人类反馈强化学习)这种方式来进行。
这基本上就是R1的技术路线。
DeepSeek-R1使用极低的成本通过蒸馏模型,将国内的qwen模型进行蒸馏出1.5B、7B、14B、32B模型,用于不同规格的进行处理使用,将国外的Llama模型进行蒸馏出8B、70B模型,并通过MIT协议较为宽松的方式进行了开源,同时使用极低的API价格,让国内的企业用上了国产自己的满血大模型。
而比起DeepSeekR1,DeepSeekR1-Zero更加值得关注,ARC Prize联合创始人 Mike Knoop在新博客中发表的观点。
他认为,R1-Zero 之所以比 R1 更值得分析,是因为它完全依赖强化学习(RL),而不使用人类专家标注的监督微调(SFT),这表明在某些任务中,人类标注并非必要,且未来可能通过纯 RL 方法实现更广泛的推理能力。
而DeepSeek公司就是为了实现AGI而努力,开源会让这个路变得不是一小部分企业、兴趣者走,而是让大部分人甚至全部的人、企业为此努力。
可以说DeepSeek推动了科学的前沿发展。
时间线
2025年1月26日,下午、晚上、官网发布R1网页/API不可用并进行了修复,27日再次受到了攻击,官方status发布信息,近期DeepSeek线上服务受到大规模恶意攻击,注册可能繁忙,请稍后重试,已注册用户可以正常登录使用,但是联网功能暂时不开放。
2025年1月30日,最离谱的来了,我们看下文案,DeepSeek服务器集群在1月25日-1月29日83小时内遭受每秒超过2.3亿次DDOS恶意请求,攻击总量相当于整个欧洲三天的网络流量综合。最终,360安全大脑,华为云泰山防控,阿里云算力调度算法,海康公共监控算法,网易游戏雷火游戏服务器集群,钉钉紧急通讯池,菜鸟网络物流调度算法,红客联盟等联合进行多层次多维度流量清洗,成功抵御了此次攻击。
这文案是简易版的,大家看到的内容可能比这个复杂,甚至还有主持人洗稿后发出,具体可以看网络安全大佬边亮的视频吐槽,这里我就不吐槽了,简直太离谱了,我只想吐槽一点,25日-29日四天,一天24小时,是96小时而不是83小时。
2025年1月31日,openAI宣布正式推出推理模型o3-mini,即日起可以在chatGPT和API中进行使用,甚至免费用户也可以使用。
2025年2月1日,华为云发布已经上线基于云服务的DeepSeek-R1相关服务,微软、英伟达、亚马逊、因特尔、AMD等海外公司也宣布近日上线DeepSeek模型服务。
各大社交APP直播可以看到基于教小白如何使用DeekSeek本地部署相关的直播、卖课卖资料的也开始陆续的进行了,但是这些人有些是蹭流量的会一点所谓的技术就开播,赚钱,但是这也是意识到,DeepSeek在过年的期间彻底出圈了。
海外媒体消息称,美国议会已经拟定法案,旨在禁止中国AI技术在美国使用。其中包括下载DeepSeek,会被认定为犯罪行为,最高可以判处20年监禁。
2025年2月2日中科曙光国家先进计算产业创新中心官微发布消息称,海光近日完成了DeepSeekV3和R1模型与海光DCU的国产化适配并正式上线。
2025年2月3日,在过年期间,OpenAI紧急通过直播,上线了DeepResearch功能,售价200刀,并向ChatGPT Pro用户开放,但是有次数限制。
2025年2月4日 红客联盟就DeepSeek事件再次发声,近期网络上流传关于DeepSeek被攻击以及中国红客联盟反击相关事件引起了广泛关注,在此,中国红客联盟郑重声明,该事件系互联网企业博主为营销宣传,以及某国内小企业借中国红客联盟之名进行的计划性营销牟利行为。呼吁网名切勿轻信下载所谓的红客联盟工具包,以免造成不必要的风险。
2025年2月4日 ,阿里、百度、腾讯官宣上线DeepSeek模型,各类人群可以通过各大平台调用DeepSeek-R1和DeepSeek-V3模型,也宣布了针对DeepSeek的AI圈子的结束,同时也是新的开始,我们期待未来AI带给我们的世界会变得更加美好,而这个美好是由中国的企业研发的,而不像芯片一样受制其他国家的垄断封锁卡脖子,AI圈子更新迭代蛮快,那么你追上了吗?你追到哪里了,你对此有什么见解呢?我们评论区讨论一下吧。
2025年2月4日,据参考消息援引德国之声电台网站2月3日报道,美国开放人工智能研究中心(OpenAI)首席执行官奥尔特曼2月3日表示,该公司没有计划起诉中国AI初创公司杭州深度求索人工智能基础技术研究有限公司(DeepSeek),“我们打算继续打造出色的产品,并在模型能力方面引领世界,我认为这样会很好。”
2025年2月5日 自openAI发布 Deep Research(一种使用推理来综合大量在线信息并完成多步骤研究任务的AI Agent)之后开源社区已经迎来了一大波浮现,huggingface 24小时复现了该项目并开源open-Deep-Research,是一个完全开放的智能Agent,能够自主浏览网页,滚动和搜索页面、下载和操作文件、对数据进行计算......
另外,在使用o3-mini的过程中,有网友发现,模型输出的思考内容大部分为中文,这让国外的网友感到困惑,因为他们看不懂。甚至有用户反映,这种情况导致了效果有所下降。
结语
AI圈子的事情还在陆续发生,究竟会发展成什么样子?
AGI什么时候真的可以研制出来?
会对人类的生产生活造成什么样的影响?
将怎么改变你的生活?
让我们拭目以待!
时光荏苒,以上就是本次文章的全部内容了,希望大家喜欢。同时,大家可以关注微信公众号<知识碎片拼图屋>相关的文字内容以及我对AI的见解以及其他碎片知识也会在公众号上分享。
如果你对AI壁纸感兴趣,也可以搜索我的小红书账号<@heike07创意壁纸>
暂无更多评论