农历新年假期前后短短十来天,AI 大模型领域几乎每天都有新的惊喜:多模态进一步成熟,Agent形态百花齐放,云平台和终端算力竞相拥抱开源模型。
一起来看看过去这半个月到底发生了什么。
DeepSeek 打响 “第一枪”
春节假期前,2025年1月20日,DeepSeek团队率先发布了全新的DeepSeek-R1模型。其在后训练阶段大规模运用强化学习(RL)技术,显著降低了对人工标注数据的依赖,从而有效减少训练和推理成本。
与此同时,这款模型还通过完全开源策略以及极具竞争力的API定价(输入tokens每百万0.55美元,输出tokens每百万2.19美元)吸引了大量开发者。
彼时,在数学、代码、自然语言推理等多项测试中,DeepSeek-R1的表现逼近甚至超越OpenAI o1,打响中国团队在大模型创新道路上的“第一枪”。
同日,豆包团队也推出了实时语音大模型,并在豆包App中全量开放。它既可实现语音理解与生成的一体化,还具备低时延和随时打断的灵活特性。
相比OpenAI的GPT-4o,这款模型在语音自然度和情绪承接上拥有更出色的表现,更展示了专注语音交互的深厚潜力。
随后在1月21日,阶跃星辰发布了Step-1o Vision多模态理解大模型,覆盖文本、视觉、语音三模态的生成与理解,尤其在视觉感知和空间推理方面大幅升级,标志着多模态融合进入“端到端”的时代。
1月22日,豆包再次亮相,带来了豆包1.5Pro大模型,凭借在知识、代码、推理、中文等多个权威基准上全面超越业界一流模型而备受瞩目。
值得一提的是,豆包1.5Pro并未使用其他模型生成的数据,独立性与可靠性更胜一筹。
到了1月23日,智谱团队对外宣布了GLM-PC的开放体验,成为全球首个面向公众、回车即用的电脑智能体,能够“观察”并“操作”计算机,为用户带来全新的电脑交互方式。
同一天,OpenAI也在直播中发布了其首款AI Agent——Operator,可以在网页环境下代理用户进行自动化操作,代表AI进入了“代理式”应用的新阶段。
随后1月25日,科大讯飞年会上,董事长刘庆峰表示,2025年,科大讯飞将重点围绕自主可控的底座能力和关键应用领域,打造全栈自主可控的“大模型国家队”。
这些重磅产品、战略方向的接连亮相之下,外界对大模型市场的关注度和热情逐步攀升,也迎来了中国的假期。
可就在大家准备休憩回家过春节时,大模型行业又爆发了更多极具冲击力的创新与动作,进一步掀起了2025年开年AI波澜。
春节彩蛋正式爆发:新多模态强势登场
1月28日(农历除夕)凌晨,DeepSeek再次引爆行业——推出全新多模态大模型Janus-Pro,并在图像生成基准中超越OpenAI DALL-E3,引发全球瞩目。依旧秉持完全开源,提供MIT许可证,商业使用几乎无门槛。
同时,Janus-Pro 7B、1.5B等轻量级版本可在消费级电脑上本地运行,功能包括图像生成、图像描述、地标识别与内容解读等。
在全球科技股不稳定的背景下,DeepSeek在除夕日逆势带来“惊喜”,同时官方称其遭遇大规模恶意攻击,被迫限制非大陆地区注册。尽管如此,Janus-Pro的发布也让市场开始重新审视多模态大模型的潜力。
同日,阿里云通义团队开源全新视觉理解模型Qwen2.5-VL,包含3B、7B、72B 三个版本,旗舰版在13项权威评测中夺得视觉理解冠军。
1月29日,阿里云通义再发布旗舰版Qwen2.5-Max,以MOE(混合专家)模型为核心,基于超过20万亿token的预训练数据及精心设计的后训练方案进行训练,在多项主流测评中展现了“越大越强”的态势。
阿里延续其大规模多专家(MOE)技术探索,展示强悍训练能力与超大参数规模,也引发业界对“超大模型是否就是终极路径”的再次讨论。
春节期间的激烈竞争:1月31日至今
国内的多重彩蛋重击了美国科技界。
OpenAI也在当地时间1月31日起打出双连击:o3-mini(1月31日)&“Deep Research”(2月3日)。
o3-mini定位主打“成本效益高”,是推理模型中更灵活的选择,允许开发者在“低/中/高”三档思考深度间切换,以在速度与准确率之间取得平衡。
Deep Research主要基于o3模型做专项优化,利用联网搜索+大模型推理,其声称可在5-30分钟内完成相当于人类专家数小时的复杂研究任务。也是一款真正将“大模型思维”与“互联网信息获取”结合的AI Agent,也算是朝“AI自主研究助手”迈出实质一步。
Deep Research发布同日,奥特曼的帮手软银集团宣布与OpenAI联合成立一家名为“SB OpenAI Japan” 的合资公司,双方各持有50%股份。公司将致力于开发和推广高级企业人工智能“Cristal intelligence”。
此外,欧洲也不甘示弱,1月31日,欧洲AI巨头Mistral AI发布全新“Mistral Small3”模型。
该模型拥有240亿参数,在多语言处理、数学和编程等领域表现出色:在HumanEval测试中准确率达到84.8%,在MMLU测试中突破81%。
Mistral Small3的硬件适配与推理速度优势同样可圈可点——不仅支持Apache2.0许可证开源,还能在普通RTX 4090 GPU或配备32GB RAM的笔记本电脑上以量化方式流畅运行。
凭借“小而精”的特色,Mistral Small3可以与Meta、阿里等大型模型同台竞争,也为欧洲AI市场注入了新的增长动力,进一步丰富了全球大模型生态格局。
2月5日,谷歌宣布Gemini 2.0家族更新,分别是Gemini 2.0 Flash、Gemini 2.0 Pro、Gemini 2.0 Flash-Lite,且Gemini 2.0 Pro超过了DeepSeek-R1。
具体来说,Gemini 2.0 系列全家桶模型各具特色。其中,已全面发布的 Gemini 2.0 Flash 支持多模态输入和文本输出,具备 100 万tokens 的上下文窗口,并支持结构化输出、函数调用和代码执行等功能。
值得注意的是,其多模态实时 API 目前仍处于「beta」阶段,图像和音频输出功能也将在后续推出。该模型的定价方案也已确定,文本、图像和视频输入每百万 tokens 收费 0.10 美元,音频输入则为 0.70 美元,(2 月 20 日起正式生效)。文本输出每百万 tokens 收费 0.40 美元。
平台与生态齐发力
除了大模型企业本身,整个AI生态链也为大模型产业发展加了一把火。
从1月底到2月初,整个春节期间,大模型之间的竞争逐渐蔓延云平台、算力供应及企业级部署层面,形成多方“生态竞合”局面。
最具有标志性的便是DeepSeek模型的多云上架。得益于DeepSeek的开源与低成本特色,各大云厂商竞相利用更低门槛、更便捷的体验来吸引开发者与企业客户。
2月初,多家云厂商与DeepSeek达成深度合作,纷纷“上架” DeepSeek系列模型,提供更加便捷的部署与试用服务。
2月1日至2月3日期间,百度智能云、阿里云、腾讯云、360 数字安全、云轴科技ZStack,以及海外的亚马逊AWS、微软Azure、英伟达等平台,相继宣布接入DeepSeek-R1、DeepSeek-V3、Janus-Pro等热门模型,并推出“一键部署”等能力。
2月4日,华为云与潞晨科技联合宣布,基于国产昇腾 910B 算力完成了 DeepSeek-R1系列模型的推理适配,与高端GPU相比,性能表现不相上下。这次合作也为国产软硬件结合提供了成熟的落地方案,为中国企业在算力自主化、降低AI成本方面带来了新的思路。
2月4号同日,腾讯云也在TI平台上架了DeepSeek系列模型。通过“一键在线部署+免费体验”的方式,让开发者能够快速测试从671B“满血”大模型到1.5B蒸馏小模型,充分适配不同业务需求。
2月5日,国家超算互联网平台正式上线DeepSeek-R1等多款大模型。其中,DeepSeek-R1小版本模型支持一键推理服务,无需本地下载,并允许用户根据私有化需求引入专有数据进行定制化训练。此次同步上线的还包括DeepSeek-V3、DeepSeek-v2.5系列、DeepSeek-coder系列等模型。
当然,对于云平台而言,这不仅是丰富自身大模型生态的举措,也是为其在AI产业链中赢得更深层的价值在打地基。
看未来:开源与性价比的“模型平权”逐步蔓延
随着DeepSeek、Mistral、豆包等厂商以开源和低成本的方式快速推广,大模型技术正逐渐摆脱过去高昂资源门槛的桎梏,使得中小团队乃至个人开发者也能掌握一流的 AI能力,也在无形中削弱了传统AI巨头在算力与数据层面的垄断地位。
与此同时,各大云服务商纷纷集成开源大模型,将竞争焦点从“模型训练”转向“推理应用”,在更广泛的场景(包括端侧设备)加速落地,这也意味着小模型在消费级设备上跑通的前景越发可期。
除此之外,大模型多模态与Agent竞赛纷拥而至。
多模态正在成为新一轮大模型进化的关键词:Janus-Pro、Step-1oVision、Qwen2.5-vl 等产品相继涌现,在图像生成、识别和视觉推理方面持续迭代。
同时,Operator、GLM-PC、Deep Research等智能体(Agent)形态也是势不可挡,席卷而来。
可以预见,单纯的大语言模型性能竞赛将逐渐让位于“多模态+Agent化”,谁能让AI更加主动地“观察世界并行动”,谁就更有机会在下一阶段掌握主动权。