昆仑万维天工大模型推理能力大幅超过 GPT-3.5 和 LLaMA2

来源: 投稿
作者: News Bot
2023-09-18 10:46:00

9月16日,在权威推理榜单Benchmark GSM8K 测试中,昆仑万维完全自研的天工大模型以 80% 的正确率脱颖而出,大幅领先GPT-3.5(57.1%)和LLaMA2-70B(56.8%),“这标志着天工的推理能力达到全球领先,接近GPT-4”。

与此同时,在MMLU数据集测试中,天工以65%准确率超越了LLaMA-65B的63.4%;在C-EVAL数据集测试中,天工以65%准确率超越了GPT3.5的54.4%。在HumanEval数据集测试中,天工以37.2%的准确率超过了PaLM-540B(26.2%)、LLaMA-65B(23.7%)、LLaMa2 -70B(30.5%)。

推理能力对于判断一个基座大模型是否“聪明”至关重要。在GSM8K、MMLU、C-EVAL、HumanEval四项数据集测试中,天工大模型均获得较高的正确率,表明天工大模型的通用能力很强,核心性能均达到了国际领先水准。

GSM8K英文数据集测试目前全球公认的评判基座大模型推理能力的权威标准。GSM8K包含8500个高质量的数学问题。这些问题被分为7500个训练问题和1000个测试问题,一般需要2到8个步骤来解决。这些问题的解决主要涉及算术运算。GSM8K数据集的目的是用来测试推理多步数学问题的能力。研究人员通常使用GSM8K来评估大型语言模型在解决英文数学问题时的性能表现。

除了英文数据集,天工大模型在小米的中文开源数据集CMATH测试中也表现良好。CMATH数据集包括1700个小学水平的数学应用题和详细的注释,旨在提供一个基准工具,评估当前流行的大模型的数学能力对应小学数学哪一年级的水平,在这份测试集中天工大模型的平均准确率为76.4%高于ChatGPT的平均准确率74.8%。

天工和GPT-3.5在GSM8K测试中的具体表现,示例:

Every day, Wendi feeds each of her chickens three cups of mixed chicken feed, containing seeds, mealworms and vegetables to help keep them healthy.  She gives the chickens their feed in three separate meals. In the morning, she gives her flock of chickens 15 cups of feed.  In the afternoon, she gives her chickens another 25 cups of feed.  How many cups of feed does she need to give her chickens in the final meal of the day if the size of Wendi's flock is 20 chickens?

案例为英文。注释:每天,Wendi 给每只鸡喂三杯混合鸡饲料,其中包括种子、黄粉虫和蔬菜,以帮助它们保持健康。她分三餐给鸡喂食。上午,她给鸡群喂 15 杯饲料。下午,她再给鸡喂 25 杯饲料。如果 Wendi 的鸡群有 20 只鸡,那么一天的最后一餐她需要给鸡喂多少杯饲料?

天工给出的解题思路

最后天工大模型给出的答案是:Wendi 需要在一天的最后一餐中给鸡喂 20 杯饲料,以确保它们一天都吃饱。

GPT-3.5 给出的解题思路:

GPT-3.5给出的答案为:Wendi 需要在一天的最后一餐中给鸡喂 21 杯饲料,为错误的答案。

目前天工大模型仍属于内测阶段,以上评测暂未整合到天工AI搜索和天工AI助手,官方表示后续会将最好的基座部署上线,供用户体验。

展开阅读全文
点击加入讨论🔥(7) 发布并加入讨论🔥
本篇精彩评论
国产大模型大部分不开源,不提供模型,套壳的多,个个都号称超越ChatGPT或LLaMA2,而文言一心号称国产第一,那么问题来了,都不支持上下文的国产大模型,到底谁厉害?
2023-09-18 11:01
2
举报
是骡子是马拉出来溜溜不就知道了
2023-09-18 14:17
1
举报
看了这波吹牛,昆仑万维大股东估计要继续减持5%了。
2023-09-18 11:45
1
举报
7 评论
0 收藏
分享
返回顶部
顶部