YOLOv7改进：结合CotNet Transformer结构

最新推荐文章于 2025-03-24 15:14:43 发布

陈子迩

最新推荐文章于 2025-03-24 15:14:43 发布

阅读量884

点赞数 2

分类专栏： yolov5/7/8/9系列独家改进 YOLOv9/v10独家改进，每周持续更新文章标签： YOLO transformer 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_45303602/article/details/133430123

版权

yolov5/7/8/9系列独家改进同时被 2 个专栏收录

64 篇文章 ¥49.90 ¥99.00

订阅专栏

YOLOv9/v10独家改进，每周持续更新

22 篇文章 ¥49.90 ¥99.00

订阅专栏

本文介绍了将Contextual Transformer (CoT) Block应用于YOLOv7改进的过程，以替代ResNet中的3x3卷积。CoTBlock通过上下文编码增强视觉表示能力，提高模型性能。通过修改yaml配置文件、common.py和yolo.py，成功整合CoT3模块到YOLOv7模型中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.简介

京东AI研究院提出的一种新的注意力结构。将CoT Block代替了ResNet结构中的3x3卷积，在分类检测分割等任务效果都出类拔萃

论文：Contextual Transformer Networks for Visual Recognition
论文地址：https://arxiv.org/abs/2107.12292

有自注意力的Transformer引发了自然语言处理领域的革命，最近还激发了Transformer式架构设计的出现，并在众多计算机视觉任务中取得了具有竞争力的结果。

大多数现有设计直接在2D特征图上使用自注意力来获得基于每个空间位置的独立查询和键对的注意力矩阵，但未充分利用相邻键之间的丰富上下文。在今天分享的工作中，研究者设计了一个新颖的Transformer风格的模块，即Contextual Transformer (CoT)块，用于视觉识别。这种设计充分利用输入键之间的上下文信息来指导动态注意力矩阵的

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

陈子迩 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。