一、Focal Modulation论文
论文地址:2203.11926.pdf (arxiv.org)
二、Focal Modulation结构
Focal Modulation Networks使用焦点调制模块完全替代了自注意力(Self-Attention,SA),以建模视觉中的标记(token)之间的相互作用。焦点调制包括三个组件:
焦点上下文化(focal contextualization):通过一系列深度可分离卷积层实现,用于从短范围到长范围编码视觉上下文。
门控聚合(gated aggregation):选择性地将上下文聚合到每个查询标记的调制器