一、论文理论
论文地址:Focal Modulation Networks
1.理论思想
主要解决小目标和复杂背景下的目标检测精度低的问题,利用注意力机制关注图像中的关键区域。Focal Modulation Networks(FocalNets)的基本原理是替换自注意力(Self-Attention)模块,使用焦点调制(focal modulation)机制来捕捉图像中的长距离依赖和上下文信息。下图是自注意力和焦点调制两种方法的对比。
2.创新点
(1)分层语境化,使用一组depth-wise的卷积实现,以不同粒度水平对短程到长程视觉语境进行编码。
(2)门控聚合,根据每个token的内容有选择地聚合其上下文特征。
(3)调制或元素级仿射变换,将聚合的特征融合到query中。