TRANSFORMER^2^: SELF-ADAPTIVE LLMS

最新推荐文章于 2026-01-09 21:54:10 发布

原创最新推荐文章于 2026-01-09 21:54:10 发布 · 976 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能

Transformer 专栏收录该内容

1 篇文章

订阅专栏

提示：该文不做技术性分析，仅做创作思路理解

TRANSFORMER2: SELF-ADAPTIVE LLMS

初识
一、Transformer^2^概括。
二、剖析其思考过程
三、Transformer² 简介
四、使用 SVF 和 RL 进行训练
五、自适应
六、未来：从静态模型到生命智能

初识

原Transformer作者，初创公司发布Transformer², 让模型会分工！
论文链接：https://arxiv.org/abs/2501.06252
论文翻译：https://pan.baidu.com/s/1Z4VWCPLzohafEFBybzxk_w?pwd=td2h 提取码: td2h

一、Transformer²概括。

适应是自然界最引人注目的现象之一。从章鱼改变皮肤颜色以融入周围环境的方式，到人类大脑在受伤后如何自我重塑，使个体能够恢复失去的功能并适应新的思维方式或移动方式。生物体表现出适应性，使生命能够在多样化和不断变化的环境中蓬勃发展。

在人工智能领域，适应性概念也具有类似的吸引力。想象一下，一个机器学习系统可以动态调整自己的权重，以在陌生的环境中茁壮成长，这本质上说明了一个在学习过程中不断进化的系统。人工智能的自适应性有望提高效率，并有可能使终身模型始终与现实世界的动态性质保持一致。

这种自适应 AI 愿景是在最新研究论文Transformer² ( ‘Transformer-squared’)的核心，论文中提出了一种机器学习系统，可以根据各种任务动态调整权重。Transformer² 这个名字反映了它的两步过程：首先，模型分析传入的任务以了解其要求，其次应用特定于任务的调整来生成最佳结果。通过有选择地调整模型权重的关键组件，我们的框架允许 LLM 实时动态地适应新的任务。Transformer² 在各种任务（例如数学、编码、推理和视觉理解）中都取得了显著的进步，在效率和任务特定性能方面优于 LoRA 等传统的静态方法，同时需要的参数要少得多。
在这里插入图片描述
第一阶段：询问这是一个啥任务？
第二阶段：根据任务，使用不同的Block权重。

作者认为：自适应性不仅会改变人工智能研究，还会重新定义我们与智能系统的互动方式，创造一个适应性和智能并驾齐驱的世界。

二、剖析其思考过程

就像人类的大脑通过相互连接的神经通路存储知识和处理信息一样，LLM 将知识存储在其权重矩阵中。这些巨大矩阵是 LLM 的“大脑”，保存着从训练数据中学到的知识的精髓。

要理解这个“大脑”并确保它能够有效地适应新任务，需要更仔细地观察它的内部结构。这就是奇异值分解 ( SVD ) 提供宝贵见解的地方。可以将 SVD 想象成一位外科医生对 LLM 的大脑进行详细的手术。这位外科医生将存储在 LLM 中的庞大而复杂的知识分解成更小、更有意义且独立的部分（例如，数学、语言理解等的不同途径或组成部分）。

SVD 通过识别 LLM 权重矩阵的主成分来实现此目的。作者发现增强这些成分子集的信号并抑制其他成分可以提高 LLM 在下游任务上的表现。在此基础上，Transformer² 朝着动态、特定于任务的适应迈出了下一步，使 LLM 能够在多样化和复杂的场景中表现出色。

三、Transformer² 简介

Transformer² 是一种新颖的方法，它开创了自适应 LLM 的概念，通过两步流程重新定义了这些强大的模型如何处理各种任务。其核心是能够动态调整其权重矩阵的关键组件。在训练时，引入了奇异值微调 (SVF)，这种方法采用强化学习 (RL) 来增强/抑制来自不同“大脑”组件的信号，以用于各种类型的下游任务。在推理时，采用三种不同的策略来检测任务的身份并相应地调整模型的权重。下图概述了方法。
在这里插入图片描述
左图：使用 SVD 将 LLM 的“大脑”（即权重矩阵）分解为几个独立的组件。
右图：使用 RL 来训练这些组件的组合以用于各种任务。组件可以在不同的任务之间共享。例如，在上图中，语言理解和推理共享紫色齿轮。在推理时，识别任务类型，然后动态调整组件的组合。

四、使用 SVF 和 RL 进行训练

在训练时，SVF 会学习一组z 向量，每个下游任务一个。每个 z 向量可视为一项任务的专家，是一种紧凑的表示，指定权重矩阵中每个组件的所需强度，充当一组“放大器”或“阻尼器”，以调节不同组件对模型行为的影响。

例如，假设 SVD 将权重矩阵分解为五个分量 [A、B、C、D、E]。对于数学任务，学习到的 z 向量可能是 [1、0.8、0、0.3、0.5]，这意味着分量 A 对数学至关重要，而分量 C 几乎不会影响其性能。对于语言理解任务，z 向量可能是 [0.1、0.3、1、0.7、0.5]，这突显出尽管分量 C 对数学用处不大，但对于这项任务却至关重要。这是不是有点类似注意力的那种感觉

SVF 使用 RL 在一组预定义的下游任务上学习这些 z 向量。学习到的 z 向量使 Transformer² 能够适应各种新的下游任务，同时仅引入最少数量的附加参数（即 z 向量）。

五、自适应

在推理时，该框架设计了一个两遍适应策略，该策略有效地结合了一组特定于任务的 z 向量。在第一个推理过程中，给定一个任务或一个单独的输入提示，Transformer² 使用以下三种适应方法之一分析其测试时间条件。在第二遍中，Transformer² 通过组合 z 向量相应地调整权重，产生与其新设置最相关的最终响应。

以下三种任务检测/适应方法：