贡献
提出了一个针对VLN任务的由两个PETL模块Historical Interaction Booster
(HIB)、Cross-modal Interaction Booster
(CIB)和几种现有PETL方法结合起来的集成的VLN-PETL方法。
测试结果显示,其性能和纯微调方法的性能相当。
Introduction
PETL,即参数高效的迁移学习是用来缓解纯微调大模型带来的昂贵代价。该方法通过冻结大模型的大部分参数,仅调整一部分参数,来将预训练大模型的表示知识用于下游任务,不同的PETL方法在同一下游任务上有不同的特征和性能,因此结合多种PETL技术有望提高性能。
VLN任务很依赖历史决策并且本身就是一个跨模态的任务,因此提出了HIB和CIB这两个模块:
- HIB 以循环模式增强观察与先前历史知识之间的互动。
- CIB采用双流结构注重跨模态知识的交互
这两个模块主要由bottleneck层和 multi-head cross-attention层组成,将这两者分别插入到 VLN 预训练模型的视觉编码器和跨模态编码器中,在训练过程中,预训练大模型的原始权重都被冻结,只有这些新插入模块的权重针对下游不同VLN任务进行训练和更新。此外,还采用一些普通适配器来微调语言编码器和LoRA。
本文在4个数据集上测试:R2R, REVERIE, NDH, and RxR。也做了消融实验评估VLN-PETL各组成部分的贡献。
预备知识
本文对问题的定义
会给agent一个自然语言指令: I I I
在每个时间步t
,会看到有个全景图,这个全景图包括n个单独视图和其对应的摄像机的角度信息。
在这个时间步t
之前的历史信息由历史过程中的若干个经过的全景图和那时执行的动作(即机器人转动的角度)构成。
基于上述的三个信息,agent会在每个时间步t去预测下一个动作,直到执行【STOP】或者达到最大长度。
其他一些任务,如REVERIE
还需要agent返回目标物体的位置;NDH
使用对话指令。
本文用到的PETL方法
一类PETL方法将新参数添加到预训练模型中去,并且仅训练这些参数。这包括了如:
-
Adapter: 适配器是在多头注意力层或前馈网络层后添加可训练的瓶颈层,来调整模型的能力。
- 瓶颈层的结构:适配器包含一个线性降维投影矩阵 W down W_{\text{down}} Wdown,它将输入特征从原始的高维空间 D hidden D_{\text{hidden}} Dhidden 映射到一个较低维度 D mid D_{\text{mid}} Dmid。这个过程中会使用一个非线性激活函数 σ ( ⋅ ) \sigma(\cdot) σ(⋅)。
- 恢复维度:之后,适配器使用线性升维投影矩阵 W up W_{\text{up}} Wup 将中间的低维特征再映射回到原始的高维空间 D hidden D_{\text{hidden}} Dhidden。
- 公式解释:输入特征 f in f_{\text{in}} fin 经过 W down W_{\text{down}} Wdown 和激活函数 σ ( ⋅ ) \sigma(\cdot) σ(⋅) 后,通过 W up W_{\text{up}} Wup 恢复,最后输出特征为 f out = W up T σ ( W down T f in ) f_{\text{out}} = W_{\text{up}}^T \sigma(W_{\text{down}}^T f_{\text{in}}) fout=WupTσ(WdownTfin)。
此外:
- 忽略了偏置项的描述。
- 层归一化(Layer Normalization)的参数通常与适配器一起调优。
- 适配器可以通过顺序或并行的方式插入到 Transformer 中,但研究表明并行的方式效果更好,所以本文采用并行的方式插入。
-
LoRA:
通过引入可训练的低秩分解矩阵来表示被冻结参数的权重更新,适用于 Transformer 的线性投影层。
具体来说,在预训练模型中,对于一个权重矩阵 W ∈ R D hidden × D hidden W \in \mathbb{R}^{D_{\text{hidden}} \times D_{\text{hidden}}} W∈RDhidden×Dhidden,权重更新 Δ W \Delta W ΔW 被近似为两个低秩矩阵 W down ∈ R D hidden × D mid W_{\text{down}} \in \mathbb{R}^{D_{\text{hidden}} \times D_{\text{mid}}} Wdown∈RDhidden×Dmid 和 W up ∈ R D mid × D hidden W_{\text{up}} \in \mathbb{R}^{D_{\text{mid}} \times D_{\text{hidden}}} Wup∈RDmid×Dhidden 的乘积。权重更新 Δ W \Delta W ΔW 通过 W down W_{\text{down}} Wdown 和 W up W_{\text{up}} Wup 的乘积来近似,即:
W + Δ W = W + W down W up . W + \Delta W = W + W_{\text{down}} W_{\text{up}}. W+ΔW=W+WdownWup.这意味着,权重更新不需要通过直接更新高维的 W W W 实现,而是通过这两个低秩矩阵的训练来实现。LoRA 的前向传递计算公式可以写作:
f out = ( W T + γ W up T W down T ) f in , f_{\text{out}} = \left(W^T + \gamma W_{\text{up}}^T W_{\text{down}}^T\right) f_{\text{in}}, fout=(WT+γWupTWdownT)fin,其中 γ \gamma γ<