面壁智能发布端侧模型 MiniCPM-o 2.6,全球首个达到 GPT-4o 水平的端侧 AI

来源: OSCHINA
2025-01-17 11:41:26

1 月 16 日,面壁智能正式发布 MiniCPM-o 2.6 模型,成为全球首个达到 GPT-4o 水平的端侧 AI。

据官方介绍,MiniCPM-o 2.6 拥有端到端全模态流式架构,基于 MiniCPM 3.0 的 4B 模型构建;支持低延迟模态并发技术,创新采用时分复用技术,并通过智能语义判断用户输入结束时机,有效降低系统响应延迟;还配备端到端全模态流式学习,令 MiniCPM-o 2.6 能够理解说话人的意图。

据悉,MiniCPM-o 2.6 能够感知用户提问之前的画面和声音,真听真看真感受,也更贴近人眼的自然视觉交互。同时 MiniCPM-o 2.6 不仅能听懂人话,还能分辨除人声之外的背景音,比如撕纸、倒水、金属碰撞等声音。

在领域测试中,MiniCPM-o 2.6 取得实时流式全模态开源模型 SOTA,性能比肩代表全球最高水平的 GPT-4o、Claude-3.5-Sonnet;在语音方面,取得理解、生成开源双 SOTA,问鼎最强开源语音通用模型;在一贯优势凸显的视觉领域,稳坐最强端侧视觉通用模型。

同时,在实时流式视频理解能力的代表榜单 StreamingBench上,MiniCPM-o 2.6 性能同样比肩 GPT-4o、Claude 3.5 Sonnet;在语音理解方面,超越 Qwen2-Audio 7B,实现通用模型开源 SOTA(包括 ASR、语音描述等任务);在语音生成方面,MiniCPM-o 2.6 超越 GLM-4-Voice 9B,实现通用模型开源 SOTA。


MiniCPM-o 2.6 开源地址:

展开阅读全文
点击引领话题📣 发布并加入讨论🔥
0 评论
2 收藏
分享
返回顶部
顶部