5.10.4 Vision Transformer的条件位置编码(CPE)

用于视觉 Transformer 的条件位置编码(CPE)方案与之前预定义且独立于输入标记的固定或可学习位置编码不同,CPE 是动态生成的,并以输入标记的局部邻域为条件。

CPE 可以轻松泛化到比模型在训练期间见过的输入序列更长的输入序列。此外,CPE 可以在视觉任务中保持所需的翻译等效性,从而提高性能。我们使用简单的位置编码生成器 (PEG) 来实现 CPE,以无缝地融入到当前的 Transformer 框架中。基于 PEG,我们提出了条件位置编码视觉变换器 Conditional Position encoding Vision Transformer (CPVT)。与学习位置编码的注意力图相比,CPVT 具有视觉上相似的注意力图,并提供了优异的结果。

Transformers 中的自注意力操作是排列不变的,它会丢弃输入序列中标记的顺序。之前的工作,将绝对位置编码添加到每个输入标记,从而实现顺序感知。

位置编码可以是可学习的,也可以用不同频率的正弦函数固定。这些位置编码严重损害了 Transformer 的灵活性,阻碍了其更广泛的应用。编码通常是与输入序列等长的向量,在训练期间与网络权重联合更新。因此,位置编码的长度和值一旦训练就固定了。在测试过程中,它会导致处理比训练数据中的序列长的序列变得困难。

在测试过程中无法适应更长的输入序列极大地限制了泛化范围。 在目标

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值