MiniMax-Text-01 是一个功能强大的语言模型,参数量高达4560亿,其中单次激活459亿。
为了更好地释放该模型的长语境能力,MiniMax-Text-01 采用了一种混合架构,该架构结合了 Lightning Attention、Softmax Attention 和 Mixture-of-Experts (MoE)。
MiniMax-Text-01 是一个功能强大的语言模型,参数量高达4560亿,其中单次激活459亿。
为了更好地释放该模型的长语境能力,MiniMax-Text-01 采用了一种混合架构,该架构结合了 Lightning Attention、Softmax Attention 和 Mixture-of-Experts (MoE)。
评论