首页 > 教程攻略 > ai教程 >Transformer作者初创重磅发布Transformer²,AI模型活了,动态调整自己权重

Transformer作者初创重磅发布Transformer²,AI模型活了,动态调整自己权重

来源:互联网 时间:2026-06-30 07:15:14

先说几个核心判断。大语言模型虽然能力惊人,但有一个根深蒂固的弱点:它学完知识后,就像一个“固化”了的大脑。想让它吸收哪怕一句新信息,往往都得把整个训练流程重来一遍,成本高得吓人。

而生物界的适应能力,却几乎是本能的。章鱼可以瞬间改变肤色融入环境,人类大脑在受损后能重建神经通路——“物竞天择,适者生存”并非一句空话。但落到LLM头上,怎么让它们也拥有这种“随需而变”的能力,却是个长期难题。

现在,Sakana AI的研究团队给出了一个新的解题思路,叫做

Transformer²

。它的核心目标很明确:让LLM在推理时,能实时调整自己,去适应那些训练时从未见过的任务——方法则是选择性调整权重矩阵里的关键组件。

从技术原理上看,它打破了传统“一次训练管全部”的微调框架。我们当然希望一个模型能通吃所有任务,但现实很骨感:全面的后训练几乎意味着天文数字的计算资源,而且一旦引入更多样化的数据,过拟合和任务间的干扰就会变得非常棘手。

相比之下,“自适应模型”的思路就更灵活。与其试图让一个模型什么都会,不如给它配上一套“专家工具箱”,在需要的时候动态调用。但这里也有问题——创建多个专家模块意味着训练参数暴增,依然容易过拟合,模块之间的组合也不够灵活。

Transformer²找到了一个精巧的突破口:它不去动整个模型,而是专注于有选择性地调整权重矩阵中的关键“零件”。

Transformer²这个名字本身就解释了两步走的过程:第一步,模型“看一眼”传入的任务,理解它的需求;第二步,执行任务专用的适应性调整,输出最佳结果。在数学、编程、推理和视觉理解等多种任务上,它的表现都相当亮眼,不仅超越了LoRA这样的传统静态方法,还在效率上实现了提升——用更少的参数,达到了更好的效果。

LLM的「大脑」:权重矩阵

人类大脑通过互联的神经通路存储和处理信息。LLM的“大脑”则是权重矩阵——它从海量训练数据中提炼出的核心知识就存储在其中。

想要让这个“大脑”能灵活适应新任务,首先得弄清楚它的内部结构。而奇异值分解(SVD)恰恰提供了这扇窗口。

形象点说,SVD就像一个技术高超的外科医生,能给LLM的“大脑”做精细解剖。它将庞大复杂的知识矩阵,分解成更小、更独立、更有意义的组成部分——比如,针对数学、语言理解等不同能力的“子路径”或组件。SVD正是通过识别权重矩阵中的这些主成分来达成这一目标的。

有趣的是,研究人员发现,如果选择性地增强某些组件的信号,同时抑制另一些,就能显著提升LLM在下游任务中的表现。基于这个发现,Transformer²向前迈出了关键一步——让这种调整变得“动态”且“任务特定”,从而让LLM能在更复杂的场景里游刃有余。

引入Transformer²

Transformer²重新定义了LLM适应多样化任务的方式。它的核心,就是动态调节权重矩阵里的关键组件。

在训练阶段,它引入了

奇异值微调(SVF)

方法。SVF使用强化学习(RL)来增强或抑制不同“大脑”组件的信号,以应对多种下游任务。而在推理阶段,它则通过三种不同的策略来识别任务特征,并据此调整模型权重。

下图清晰地展示了这个框架。

左图:使用SVD将权重矩阵分解为独立组件。右图:利用RL训练这些组件的组合以应对不同任务。注意,有些组件(比如图中的紫色齿轮)在语言理解和推理任务之间是共享的。推理时,系统会先识别任务类型,然后动态调整组件的组合。

使用SVF和RL进行训练

在训练阶段,SVF会为每个下游任务学习一组

z向量

你可以把z向量理解为该任务的“专家标识”。它是一个非常紧凑的表示,指定了权重矩阵中每个组件的期望强度,相当于一个“放大器”或“衰减器”,用来调节不同组件对模型行为的影响力。

举个简单的例子:假设SVD把权重矩阵分解成了[A, B, C, D, E]这5个组件。

对于数学任务,学习到的z向量可能是[1, 0.8, 0, 0.3, 0.5]。这表明组件A对数学任务至关重要,而组件C几乎不影响它的表现。

而对于语言理解任务,z向量可能会变成[0.1, 0.3, 1, 0.7, 0.5]。这说明组件C虽然在数学任务里用处不大,但对语言理解却举足轻重。

SVF通过强化学习在预定义的任务集上学习这些z向量。这些学习到的z向量,使得Transformer²能以极小的参数代价(仅仅多训练了一些z向量),就能适应各种全新的下游任务。

自适应性

在推理阶段,框架采用了“两阶段”的适应策略。

第一阶段,给定任务或单个输入提示,Transformer²会通过下面三种方法之一来分析“测试时”的条件。第二阶段,它会结合这些z向量来调节权重,生成最适合当前场景的最终答案。

三种任务检测与适应方法如下:

  • 基于提示的适应:

    使用专门设计的提示词,对任务进行分类(比如数学、编程),然后直接选择一个预训练好的z向量。
  • 基于分类器的适应:

    额外训练一个任务分类器,在推理时识别任务类型,再匹配合适的z向量。
  • 少样本适应:

    通过加权插值,组合多个预训练的z向量。一个简单的优化算法会根据模型在少量样本测试集上的表现,来自动调整这些权重。

这三种方法共同确保了Transformer²既能实现强大的任务自适应,又保持了高效的推理能力。

主要结果

作者将这些方法应用在了Llama和Mistral模型上,并在广泛的任务维度进行了测试,包括数学(GSM8K、MATH)、代码(MBPP-Pro、HumanEval)、推理(ARC-Easy、ARC-Challenge)和视觉问答(TextVQA、OKVQA)。

SVF测评

首先,研究人员用SVF在这些任务上获取了z向量,并和LoRA进行了对比。

结果很清晰:在文本任务上,SVF全面优于LoRA,尤其在GSM8K数据集上提升显著。这很可能得益于RL的训练目标——与LoRA不同,RL并不要求每个问题都有“完美解决方案”,容错空间更大。右侧的直方图也展示了SVF在视觉领域的惊人表现。

未见过的任务

接着,研究团队将Transformer²的适应框架与LoRA在“未见过的任务”上进行了对比,重点包括MATH、HumanEval和ARC-Challenge。

下表左侧展示了,随着方法复杂度的提升,新架构在所有任务上都实现了逐步的性能提升。

左图:在未见任务上的自适应表现。右图:学习到的z向量插值权重分析。

更有趣的是右图的发现:当模型在处理MATH这种复杂推理问题时,它并不是只依赖于为GSM8K任务专门训练的z向量。相反,它组合了数学、编程和逻辑推理等多种能力。这说明复杂的任务,确实需要模型综合不同的专业知识才能达到最佳效果。

模型知识转移

最后,作者探索了一个颇具前瞻性的问题:能否把一个模型学到的知识,转移到另一个模型里?

答案是令人兴奋的。当把Llama学到的z向量转移到Mistral上时,后者的表现在大多数任务上都有提升。当然,这背后有一个重要前提:Llama和Mistral有着相似的结构,这可能是知识能够兼容的原因。

不同AI模型之间能否实现真正的知识共享,目前还悬而未决。但这些结果的确打开了一扇新的大门:特定任务技能的解耦与重用,似乎不再是天方夜谭。这为未来更大、更强的模型提供了一种全新的赋能方式。

「活体智能」

但这仅仅是开始。Transformer²为我们描绘了一个更激动人心的场景:AI系统不再是训练好就固化下来的静态实体。相反,它们开始向“活体智能”迈进——一个能不断学习、演化、适应新环境的模型。

像Transformer²这样的自适应系统,正在缩小静态AI与“活体智能”之间的鸿沟。它为更高效、更个性化、且真正能融入各个行业的AI工具铺平了道路。而这,或许才是AI走进我们日常生活的正确姿势。

相关下载