YOLOv10改进 | 注意力篇 | YOLOv10引入CoTAttention注意力

最新推荐文章于 2025-02-01 10:23:26 发布

小李学AI

最新推荐文章于 2025-02-01 10:23:26 发布

阅读量391

点赞数 4

分类专栏： YOLOv10有效涨点专栏文章标签： YOLO 深度学习人工智能目标检测计算机视觉

本文链接：https://blog.youkuaiyun.com/tsg6698/article/details/139936601

版权

YOLOv10有效涨点专栏专栏收录该内容

103 篇文章 ¥89.90 ¥99.00

订阅专栏

1. CoT介绍

1.1 摘要：具有自注意力的 Transformer 引发了自然语言处理领域的革命，最近激发了 Transformer 式架构设计的出现，在众多计算机视觉任务中取得了具有竞争力的结果。然而，大多数现有设计直接在 2D 特征图上采用自注意力，以获得基于每个空间位置处的孤立查询和键对的注意力矩阵，但未充分利用邻居键之间的丰富上下文。在这项工作中，我们设计了一种新颖的 Transformer 风格模块，即上下文变换器（CoT）块，用于视觉识别。这种设计充分利用输入键之间的上下文信息来指导动态注意力矩阵的学习，从而增强视觉表征的能力。从技术上讲，CoTblock 首先通过 3×3 卷积对输入键进行上下文编码，从而产生输入的静态上下文表示。我们进一步将编码密钥与输入查询连接起来，通过两个连续的 1×1 卷积学习动态多头注意力矩阵。学习到的注意力矩阵乘以输入值以实现输入的动态上下文表示。静态和动态上下文表示的融合最终作为输出。我们的 CoT 块很有吸引力，因为它可以轻松替换 ResNet 架构中的每个 3 × 3 卷积，从而产生名为上下文变换网络 (CoTNet) 的 Transformer 风格主干。通过对广泛应用（例如

了解本专栏