YOLO算法改进Backbone系列之：CoaT

最新推荐文章于 2025-06-09 23:54:15 发布

BestSongC

最新推荐文章于 2025-06-09 23:54:15 发布

阅读量1.1k

点赞数 8

文章标签： YOLO 算法 pytorch 目标检测 python

本文链接：https://blog.youkuaiyun.com/sc1434404661/article/details/136995567

版权

在本文中，我们提出了co-scale conv-attention image transformer（CoaT），这是一种基于Transformer的图像分类器，配备了co-scale和conv-attention机制。首先，co-scale机制在各个尺度上保持Transformer编码器支路的完整性，同时允许在不同尺度上学习到的特征能相互有效通信；我们设计了一系列串行和并行块来实现co-scale机制。其次，我们通过在因子化注意模块中实现相对位置嵌入公式，并采用高效的卷积实现，设计了一种conv-attention机制。CoaT使图像转换器具有丰富的多尺度和上下文建模功能。在ImageNet上，与类似大小的卷积神经网络和图像/视觉Transformer相比，相对较小的CoaT模型可以获得更好的分类结果。CoaT主干在目标检测和实例分割方面的有效性也得到了验证，证明了其适用于下游计算机视觉任务。
在这里插入图片描述