SuperCLUE 发布了中文大模型10月榜单。其中,vivo自研大模型以70.74的总分位列总排行榜第四,在国内大模型中排行第一;排在其后的分别是Moonshot、文心一言4.0和SenseChat 3.0。
SuperCLUE是中文通用大模型多层次的综合性测评基准,包括多轮开放问题测评SuperCLUE-OPEN和三大能力客观题测评SuperCLUE-OPT。主要考察模型在中文能力上的表现,包括专业知识技能、语言理解与生成、AI智能体和安全四大能力维度的上百个任务。
本次评测选取了目前国内外最具代表性的20个通用大语言模型。与9月相比,新增了月之暗面的Moonshot、百度的文心一言4.0、科大讯飞的星火V3.0、vivo的vivoLM和阿里云的Qwen-14B。
评测发现,国内第一梯队大模型格局已基本形成,在过去11个月的成绩令人振奋,头部几个中文大模型已经与GPT3.5极为接近。但与GPT4的距离依然遥远,尚未发现有对标和媲美GPT4的迹象。
10月评测数据集为全新的3754道测试题,其中包括606道多轮简答题和3148道客观选择题。
总排行榜
注:本次评测的GPT3.5版本为gpt-3.5-turbo-16k;文心一言4.0和SenseChat3.0由于分数非常接近(在0.05分以内)认定为并列。
多轮开放问题OPEN排行榜
三大能力客观题OPT排行榜
十大基础能力榜单
开源模型排行榜
SuperCLUE 观点
榜单地址:https://www.superclueai.com/
评论删除后,数据将无法恢复
SuperCLUE 10 月榜单:vivo 自研大模型位列国内第一
SuperCLUE 发布了中文大模型10月榜单。其中,vivo自研大模型以70.74的总分位列总排行榜第四,在国内大模型中排行第一;排在其后的分别是Moonshot、文心一言4.0和SenseChat 3.0。
SuperCLUE是中文通用大模型多层次的综合性测评基准,包括多轮开放问题测评SuperCLUE-OPEN和三大能力客观题测评SuperCLUE-OPT。主要考察模型在中文能力上的表现,包括专业知识技能、语言理解与生成、AI智能体和安全四大能力维度的上百个任务。
本次评测选取了目前国内外最具代表性的20个通用大语言模型。与9月相比,新增了月之暗面的Moonshot、百度的文心一言4.0、科大讯飞的星火V3.0、vivo的vivoLM和阿里云的Qwen-14B。
评测发现,国内第一梯队大模型格局已基本形成,在过去11个月的成绩令人振奋,头部几个中文大模型已经与GPT3.5极为接近。但与GPT4的距离依然遥远,尚未发现有对标和媲美GPT4的迹象。
10月评测数据集为全新的3754道测试题,其中包括606道多轮简答题和3148道客观选择题。
总排行榜
注:本次评测的GPT3.5版本为gpt-3.5-turbo-16k;文心一言4.0和SenseChat3.0由于分数非常接近(在0.05分以内)认定为并列。
多轮开放问题OPEN排行榜
三大能力客观题OPT排行榜
十大基础能力榜单
开源模型排行榜
SuperCLUE 观点
榜单地址:https://www.superclueai.com/