阿里通义千问 Qwen2 大模型开源发布

来源: 投稿
2024-06-07 10:09:00

阿里通义千问Qwen2 大模型现已发布,并在 Hugging Face和 ModelScope上同步开源。

Qwen2系列模型是Qwen1.5系列模型的重大升级。包括了5个尺⼨的预训练和指令微调模型,:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。

在中⽂英语的基础上,训练数据中增加了27种语⾔相关的⾼质量数据;上下文长度支持进一步扩展,最⾼达到128K tokens(Qwen2-72B-Instruct) 。

公告称,Qwen2 相⽐Qwen1.5 在⼤规模模型实现了⾮常⼤幅度的效果提升。在针对预训练语⾔模型的评估中,对⽐当前最优的开源模型,Qwen2-72B在包括⾃然语⾔理解、知识、代码、数学及多语⾔等多项能⼒上均显著超越当前领先的模型,如Llama-3-70B以及Qwen1.5最⼤的模型Qwen1.5-110B。这得益于其预训练数据及训练⽅法的优化。

在⾃然语⾔理解和逻辑推理等⽅⾯,尤其是科学类问题上,Qwen2-72B的优势更为明显。⽽在代码测试中,Qwen2-72B同样取得不俗的成绩,并且在多个编程语⾔上都有较为突出的表现。数学能⼒则由于其预训练数据中数学部分的优化实现了⼤幅度提升。此外,在多语⾔表现上,Qwen2-72B在多个领域的多语⾔评测上均具有⼀定的优势。这也意味着,Qwen2有潜⼒在更多的国家和地区得到落地应⽤。

项目团队在微调和对⻬上投⼊了⼤量的精⼒进⾏研究。Qwen2的策略包括⼴泛采集指令和提示词,以及利⽤合成数据,如使⽤拒绝采样、代码执⾏反馈、回译等⽅法。

为了进⼀步和⼈类偏好对⻬,Qwen2采⽤了DPO的⽅法。除了使⽤常⻅的DPO及DPO的变体如IPO、KTO外,Qwen2还探索了DPO与在线学习的结合,从⽽提升模型能⼒的上限。⽽为了降低对⻬所产⽣的“对⻬税”,Qwen2使⽤模型合并的⽅法来缓解此问题。这⼀系列的努⼒最终帮助⼤幅度的提升了指令微调模型的基础能⼒以及智⼒等。结果如下所示:

此次Qwen2采⽤不同的模型许可。除了Qwen2-72B依旧使⽤此前的Qianwen License外,其余模型,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B以及Qwen2-57B-A14B在内,均采⽤Apache 2.0的许可。

展开阅读全文
点击加入讨论🔥(3) 发布并加入讨论🔥
3 评论
3 收藏
分享
返回顶部
顶部