谷歌 DeepMind 团队发表论文《Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation》,提出新 Transformer 架构 Mixture-of-Recursions(MoR),旨在同时实现参数共享和自适应计算,以解决大型语言模型训练和部署中的计算与内存开销问题。
https://arxiv.org/abs/2507.10524
MoR 的核心创新包括:
实验结果显示,在 135M 到 1.7B 参数规模的模型中,MoR 在相同训练计算量下,验证困惑度更低、少样本准确率更高,推理吞吐量相比传统 Transformer 和现有递归基线提升至多 2.18 倍,同时降低内存占用和推理延迟。
因此,MoR 被认为可能在无需承担大模型成本的情况下实现大模型质量,甚至被称为“Transformer 杀手”。
评论删除后,数据将无法恢复
谷歌 DeepMind 新架构 MoR 有望成为“Transformer 杀手”
谷歌 DeepMind 团队发表论文《Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation》,提出新 Transformer 架构 Mixture-of-Recursions(MoR),旨在同时实现参数共享和自适应计算,以解决大型语言模型训练和部署中的计算与内存开销问题。
https://arxiv.org/abs/2507.10524
MoR 的核心创新包括:
实验结果显示,在 135M 到 1.7B 参数规模的模型中,MoR 在相同训练计算量下,验证困惑度更低、少样本准确率更高,推理吞吐量相比传统 Transformer 和现有递归基线提升至多 2.18 倍,同时降低内存占用和推理延迟。
因此,MoR 被认为可能在无需承担大模型成本的情况下实现大模型质量,甚至被称为“Transformer 杀手”。