SuperCLUE 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
SuperCLUE 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
SuperCLUE 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 未知
开发语言 Python 查看源码 »
操作系统 跨平台
软件类型 开源软件
开源组织
地区 国产
投 递 者
适用人群 未知
收录时间 2023-05-10

软件简介

SuperCLUE 是针对中文可用的通用大模型的一个测评基准。

它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:

  • 这些模型不同任务的效果情况
  • 相较于国际上的代表性模型做到了什么程度
  • 这些模型与人类的效果对比如何?

它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。

SuperCLUE 的构成与特点

着眼于综合评价大模型的能力,使其能全面地测试大模型的效果,又能考察模型在中文上特有任务的理解和积累。 SuperCLUE从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力

  • 基础能力

包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。

  • 专业能力

包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。

  • 中文特性能力

针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。

SuperCLUE 特点

  • 多个维度能力考察(3大类70+子能力)

从三个不同角度对中文大模型进行测试,以考察模型的综合能力;并且每一个子能力又含有十项或以上不同的细分能力。

  • 自动化测评(一键测评)

通过自动化测评方式以相对客观形式测试不同模型的效果,可以一键对大模型进行测评。

  • 广泛的代表性模型(9个模型)

选取了多个国内外有代表性的可用的模型进行测评,以反映国内大模型的发展现状并了解与国际领先模型的差距或相对优劣势。

  • 人类基准

在通用人工智能发展的情况下,也提供了模型相对于人类效果的指标对比。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击引领话题📣 发布并加入讨论🔥
发表了资讯
2023/06/01 08:59

中文大模型评测:国内大模型首超 GPT 3.5

最近,来自中文语言理解测评基准开源社区 CLUE 的成员发起了中文大模型匿名对战平台 SuperCLUE-琅琊榜,目前已经获得有效投票 5.8K。 以下是截至2023年5月29日18点22分的 SuperCLUE 琅琊榜初始排名。 SuperCLUE-琅琊榜官方唯一地址:www.SuperCLUEAI.com SuperCLUE 是中文通用大模型综合性测评基准。 它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于: 这些模型不同任务的效果情况 ...

2
5
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
0 评论
7 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部