日本 Sakana AI 发布 Transformer²,这是一种自适应 LLMs,该方法提出了一种机器学习系统,能够动态调整其权重以适应各种任务。
Transformer² 的名称反映了其两步过程:首先,模型分析输入任务以理解其需求,然后应用任务特定的调整以生成最佳结果。通过选择性调整模型权重的关键组件,其框架使 LLMs 能够实时动态适应新任务。
Transformer² 在多种任务(如数学、编码、推理和视觉理解)上展示了显著进步,在效率和任务特定性能上超越了 LoRA 等传统静态方法,同时所需参数大大减少。
Transformer² 通过两步流程重新定义了这些强大模型处理多样化任务的方式。其核心在于能够动态调整权重矩阵的关键组件。在训练阶段,引入了奇异值微调(SVF),这是一种利用强化学习(RL)来增强/抑制来自不同“大脑”组件信号的方法,以适应各种下游任务。在推理阶段,采用三种不同的策略来检测任务身份,并相应调整模型的权重。
Sakana AI 表示其研究为未来提供了一瞥,届时 AI 模型将不再静止不变。这些系统将在测试时动态调整其计算能力,以适应所遇任务的复杂性,体现能够持续变化和终身学习的活体智能。
该公司相信,自适应性不仅将变革 AI 研究,还将重新定义我们与智能系统的互动方式,创造一个适应性与智能并驾齐驱的世界。
论文:https://arxiv.org/abs/2501.06252
GitHub:https://github.com/SakanaAI/self-adaptive-llms
官方博客:https://sakana.ai/transformer-squared/