苹果开源面向移动设备打造的小尺寸模型 OpenELM

来源: 投稿
2024-04-25 11:08:36

在 WWDC24 之前,苹果在 Hugging Face 平台上发布了一个「具有开源训练和推理框架的高效语言模型」,名为 OpenELM。

官方介绍称:大型语言模型的可重复性和透明性对于推进开放研究、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。为此,我们发布了 OpenELM,一个最先进的开源语言模型。

OpenELM 使用分层缩放策略,可以有效地分配 Transformer 模型每一层的参数,从而提高准确率。例如,在参数量约为 10 亿的情况下,OpenELM 与 OLMo 相比准确率提升了 2.36%,同时所需的预训练 tokens 数量仅有原来的 50%。

OpenELM 有四种尺寸:2.7亿、4.5亿、11亿和30亿个参数。而微软Phi-3模型为38亿,因此前者在小型机型上运行成本更低,可在手机和笔记本电脑等移动设备上运行,是做AI硬件的绝佳小模型。

OpenELM 核心特性如下

  • 功能:该模型能够执行生成文本、代码、翻译、总结摘要等功能。
  • 预训练数据:尽管最小的模型只有2.7亿参数,但苹果使用了1.8万亿tokens的数据进行预训练,这是其小参数下仍能表现出色的原因之一。
  • 苹果的开源策略:苹果通常在手机领域采取闭源策略,但此次开源可能是为了吸引用户,未来可能会推出闭源产品实现商业化。
  • 技术贡献:苹果不仅发布了模型权重和推理代码,还发布了完整的训练和评估框架,包括数据准备、模型训练、微调和评估流程,以及多个预训练检查点和训练日志。
  • OpenELM架构:OpenELM的架构,包括其技术创新点,如无编码器的transformer架构、层级缩放策略、不使用全连接层中的可学习偏置参数等。
  • 训练流程与数据集:苹果使用CoreNet作为训练框架,Adam优化算法,以及动态分词和数据过滤的方法。

论文地址:https://arxiv.org/abs/2404.14619
模型地址:https://huggingface.co/apple/OpenELM

展开阅读全文
点击引领话题📣 发布并加入讨论🔥
0 评论
1 收藏
分享
返回顶部
顶部