学习记录——FLatten Transformer

原创

已于 2023-09-11 10:54:11 修改

· 852 阅读

2 ·

版权

文章标签：

#transformer #深度学习 #人工智能

于 2023-08-18 10:20:12 首次发布

本文介绍了FLatten Transformer，一种在视觉Transformer中使用聚焦线性注意力的方法，旨在解决Transformer在视觉任务中计算量过大的问题。通过分析现有线性注意力的不足，提出聚焦函数和矩阵秩恢复模块，实现性能提升和更快的推理速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

FLatten Transformer: Vision Transformer using Focused Linear Attention

ICCV 2023
聚焦式线性注意力模块

关于Transformer

在Transformer模型应用于视觉领域的过程中，降低自注意力的计算复杂度是一个重要的研究方向。线性注意力通过两个独立的映射函数来近似Softmax操作，具有线性复杂度，能够很好地解决视觉Transformer计算量过大的问题。 然而，目前的线性注意力方法整体性能不佳，难以实际应用。
将Transformer模型应用于视觉领域并不是一件简单的事情。与自然语言不同，视觉图片中的特征数量更多，由于自注意力是平方复杂度，直接进行全局自注意力的计算往往会带来过高的计算量。针对这一问题，先前的工作通常通过减少参与自注意力计算的特征数量的方法来降低计算量。例如，设计稀疏注意力机制（如PVT）或将注意力的计算限制在局部窗口中（如Swin Transformer）。尽管有效，这样的自注意力方法很容易受到计算模式的影响，同时也不可避免地牺牲了自注意力的全局建模能力。
线性注意力将Softmax解耦为两个独立的函数，从而能够将注意力的计算顺序从(query·key)·value调整为query·(key·value)，使得总体的计算复杂度降低为线性。 然而，目前的线性注意力方法要么性能明显不如Softmax注意力࿰