Mistral AI 用「磁链链接」开源了 87 GB 的 8x7B MoE 模型

来源: OSCHINA
编辑:
2023-12-10 15:28:00

有“欧洲版 OpenAI”之称的大模型创业公司——Mistral AI 昨天发布了一条仅包含磁力链接的推文:

magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%http://2Ftracker.openbittorrent.com%3A80%2Fannounce

RELEASE a6bbd9affe0c2725c1b7410d66833e24

来源:https://twitter.com/MistralAI/status/1733150512395038967

网友打开该磁力链接后发现居然是一个大小为 87 GB 的种子。从命名和目录结构来看,这是一个 PyTorch 模型文件。

上图的“params.json”JSON 格式文件显然是该模型的主要参数信息,具体如下:

结合参数和文件名信息,Mistral AI 这次“开源”的 mixtral-8x7b-32kseqlen 是一个基于混合专家 (Mixture of Experts, MoE) 的大模型,由 8 个 70 亿参数规模 (8×7b) 的专家网络组成。据称是全球首个开源 MoE 大模型。

MoE 是用于提高大语言模型效率和准确度的技术。这种方法的核心是将复杂任务划分为更小、更易管理的子任务,每个子任务由专门的小型模型或“专家”负责,然后根据输入数据的特性选择性地激活这些“专家”。

MoE 核心组成:

  1. 专家(Experts)训练有素的小型神经网络,擅长特定领域。每个专家通常专注于处理一种特定类型的数据或任务。专家的设计可以是多种形式,如完全连接的网络、卷积网络等。

  2. 门控机制(Gating Mechanism)MoE 架构决策者,这是一个智能路由系统,负责决定哪些专家应该被激活来处理当前的输入数据。门控机制基于输入数据的特性,动态地将数据分配给不同的专家。

根据 mixtral-8x7b-32kseqlen 的参数信息,该模型对每个 token 的推理使用 2 个专家进行处理(和传闻中的 GPT-4 一样)。

此前揭秘 GPT-4 技术细节的文章提到,GPT-4 是由 16 个专家组成的 MoE 模型,每个专家则是一个包含 1110 亿参数的大模型,每次前向传递路由经过 2 个专家模型。

Mistral AI 目前仍没公布除模型下载链接外的任何信息,如果不想下载但又想体验一把,可以访问下面的网站:

对了,这不是 Mistral AI 第一次用“留种”的方式发布开源大模型。Mistral AI 在 9 月底发布的那条磁力链接是其开源的第一个大模型 Mistral-7B,该模型至今仍被称为「最好的 7B 模型」,在每个基准测试中都优于 Llama-2 13B,并且在代码、数学和推理方面优于 LLaMA-1 34B。

展开阅读全文
点击加入讨论🔥(1) 发布并加入讨论🔥
1 评论
5 收藏
分享
返回顶部
顶部