TRANSFORMER^2^: SELF-ADAPTIVE LLMS

提示:该文不做技术性分析,仅做创作思路理解


初识

原Transformer作者,初创公司发布Transformer2, 让模型会分工!
论文链接:https://arxiv.org/abs/2501.06252
论文翻译:https://pan.baidu.com/s/1Z4VWCPLzohafEFBybzxk_w?pwd=td2h 提取码: td2h


一、Transformer2概括。

适应是自然界最引人注目的现象之一。从章鱼改变皮肤颜色以融入周围环境的方式,到人类大脑在受伤后如何自我重塑,使个体能够恢复失去的功能并适应新的思维方式或移动方式。生物体表现出适应性,使生命能够在多样化和不断变化的环境中蓬勃发展。

在人工智能领域,适应性概念也具有类似的吸引力。想象一下,一个机器学习系统可以动态调整自己的权重,以在陌生的环境中茁壮成长,这本质上说明了一个在学习过程中不断进化的系统。人工智能的自适应性有望提高效率,并有可能使终身模型始终与现实世界的动态性质保持一致

这种自适应 AI 愿景是在最新研究论文Transformer² ( ‘Transformer-squared’)的核心,论文中提出了一种机器学习系统,可以根据各种任务动态调整权重。Transformer² 这个名字反映了它的两步过程:首先,模型分析传入的任务以了解其要求,其次应用特定于任务的调整来生成最佳结果。通过有选择地调整模型权重的关键组件,我们的框架允许 LLM 实时动态地适应新的任务。Transformer² 在各种任务(例如数学、编码、推理和视觉理解)中都取得了显著的进步,在效率和任务特定性能方面优于 LoRA 等传统的静态方法,同时需要的参数要少得多。
在这里插入图片描述
第一阶段:询问这是一个啥任务?
第二阶段:根据任务,使用不同的Block权重。

作者认为:自适应性不仅会改变人工智能研究,还会重新定义我们与智能系统的互动方式,创造一个适应性和智能并驾齐驱的世界。

二、剖析其思考过程

就像人类的大脑通过相互连接的神经通路存储知识和处理信息一样,LLM 将知识存储在其权重矩阵中。这些巨大矩阵是 LLM 的“大脑”,保存着从训练数据中学到的知识的精髓。

要理解这个“大脑”并确保它能够有效地适应新任务,需要更仔细地观察它的内部结构。这就是奇异值分解 ( SVD ) 提供宝贵见解的地方。可以将 SVD 想象成一位外科医生对 LLM 的大脑进行详细的手术。这位外科医生将存储在 LLM 中的庞大而复杂的知识分解成更小、更有意义且独立的部分(例如,数学、语言理解等的不同途径或组成部分)。

SVD 通过识别 LLM 权重矩阵的主成分来实现此目的。作者发现增强这些成分子集的信号并抑制其他成分可以提高 LLM 在下游任务上的表现。在此基础上,Transformer² 朝着动态、特定于任务的适应迈出了下一步,使 LLM 能够在多样化和复杂的场景中表现出色。

三、Transformer² 简介

Transformer² 是一种新颖的方法,它开创了自适应 LLM 的概念,通过两步流程重新定义了这些强大的模型如何处理各种任务。其核心是能够动态调整其权重矩阵的关键组件在训练时,引入了奇异值微调 (SVF),这种方法采用强化学习 (RL) 来增强/抑制来自不同“大脑”组件的信号,以用于各种类型的下游任务。在推理时,采用三种不同的策略来检测任务的身份并相应地调整模型的权重。下图概述了方法。
在这里插入图片描述
左图:使用 SVD 将 LLM 的“大脑”(即权重矩阵)分解为几个独立的组件。
右图:使用 RL 来训练这些组件的组合以用于各种任务。组件可以在不同的任务之间共享。例如,在上图中,语言理解和推理共享紫色齿轮。在推理时,识别任务类型,然后动态调整组件的组合。

四、使用 SVF 和 RL 进行训练

在训练时,SVF 会学习一组z 向量,每个下游任务一个。每个 z 向量可视为一项任务的专家,是一种紧凑的表示,指定权重矩阵中每个组件的所需强度,充当一组“放大器”或“阻尼器”,以调节不同组件对模型行为的影响。

例如,假设 SVD 将权重矩阵分解为五个分量 [A、B、C、D、E]。对于数学任务,学习到的 z 向量可能是 [1、0.8、0、0.3、0.5],这意味着分量 A 对数学至关重要,而分量 C 几乎不会影响其性能。对于语言理解任务,z 向量可能是 [0.1、0.3、1、0.7、0.5],这突显出尽管分量 C 对数学用处不大,但对于这项任务却至关重要。这是不是有点类似注意力的那种感觉

SVF 使用 RL 在一组预定义的下游任务上学习这些 z 向量。学习到的 z 向量使 Transformer² 能够适应各种新的下游任务,同时仅引入最少数量的附加参数(即 z 向量)。

五、自适应

在推理时,该框架设计了一个两遍适应策略,该策略有效地结合了一组特定于任务的 z 向量。在第一个推理过程中,给定一个任务或一个单独的输入提示,Transformer² 使用以下三种适应方法之一分析其测试时间条件。在第二遍中,Transformer² 通过组合 z 向量相应地调整权重,产生与其新设置最相关的最终响应。

以下三种任务检测/适应方法:

  1. 基于提示的适应。专门设计的适应提示对任务进行分类(例如数学、编码)并选择预先训练的 z 向量。

  2. 基于分类器的适应。使用 SVF 训练的任务分类器在推理过程中识别任务并选择适当的 z 向量。

  3. 少量样本自适应。通过加权插值结合多个预训练的 z 向量。一个简单的优化算法根据少量样本评估集上的表现调整这些权重。

这三种方法共同确保了 Transformer² 实现了稳健且高效的任务自适应,为在不同场景下取得优异表现奠定了基础。

六、未来:从静态模型到生命智能

Transformer² 是 AI 系统演进过程中的一个重要里程碑。它能够实时动态适应未知任务,并具有增强的组合性,这证明了自适应 LLM 具有彻底改变 AI 研究和应用的潜力。

但这仅仅是个开始。Transformer² 为我们展现了未来的景象,那时的人工智能系统不再是静态实体,只接受固定任务的训练。相反,它们将体现“活智能”,即不断学习、进化和适应的模型。想象一下,人工智能能够无缝集成新知识或在现实环境中调整其行为而无需重新训练,就像人类适应新挑战一样。

未来之路在于构建能够动态适应并与其他系统协作的模型,结合专业能力来解决复杂的多领域问题。Transformer² 等自适应系统弥合了静态 AI 与生命智能之间的差距,为高效、个性化和完全集成的 AI 工具铺平了道路,推动了各行各业和我们日常生活的进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值