在Hugging Face上短暂泄露的信息显示,OpenAI可能将于下周发布两款代号分别为gpt-oss-20b和gpt-oss-120b的开源模型。
泄露内容显示,OpenAI计划发布两个变体:一个20B模型和一个120B模型,代号分别为gpt-oss-20b和gpt-oss-120b。

根据泄露的配置文件和社区分析,120B模型是一个稀疏的MoE(Mixture of Experts)模型,拥有128个专家,每个token激活4个。其架构与Mixtral相似,采用了Grouped-Query Attention (GQA)、SwiGLU激活函数和NTK RoPE。模型包含36个层,上下文长度为4096,隐藏层大小为2,880,拥有64个注意力头和8个KV头。词汇表大小为201,088,与GPT-4o的tokenizer相匹配。

此外,该模型在预训练阶段使用了fp4精度,并支持混合原生数据类型。

有分析指出,模型可能对微调有一定抵抗性,以限制定制化。此次泄露由vLLM和OpenAI的员工在测试时不慎引发。
暂无更多评论