一、本文介绍
本文记录的是利用焦点调制模块Focal Modulation改进YOLOv8的方法研究。Focal Modulation利用深度可分离卷积层实现的焦点语境化来编码从短到长范围的视觉语境,通过门控聚合有选择性地为每个查询标记收集语境到调制器中,并利用逐元素仿射变换将调制器注入查询,优化了对视觉任务中标记交互的建模能力,提高模型性能。
专栏目录:YOLOv8改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
文章目录
二、Focal Modulation结构详解
Focal Modulation Networks
2.1 设计出发点
- 对自注意力机制的思考:自注意力(SA)机制在视觉任务中虽有优势,但存在计算复杂度高的问题,尤其是对于高分辨率输入。许多研究通过各种方法改进SA,但作者思考是否存在比SA更好的方式来建模输入相关的长程交互。
- 现有相关工作的启发:一些研究通过在SA中增加卷积操作来捕捉长程依赖并兼顾局部结构,但作者希望探索一种全新的机制。受焦点注意力的启发,作者尝试先聚集每个查询周围的上下文,然后用聚集的上下文自适应地调制查询,从而提出Focal Modulation机制。
2.2 原理
2.2.1 从自注意力到焦点调制
- 自注意力(SA):使用晚期聚合程序,先计算查询和目标之间的注意力分数,然后对上下文进行聚合。
- 焦点调制(Focal Modulation):采用早期聚合程序,先在每个位置聚合上下文特征,然后查询与聚合后的特征进行交互。
订阅专栏 解锁全文
1052

被折叠的 条评论
为什么被折叠?



