详解DETR和Transformer

最新推荐文章于 2025-04-20 14:55:50 发布

zhuziyu_edward

最新推荐文章于 2025-04-20 14:55:50 发布

阅读量4.5k

点赞数

分类专栏：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zhuziyu_edward/article/details/111152793

版权

本文探讨Transformer如何从NLP领域跨越到CV领域，应用于端到端目标检测和图像分类。介绍了Transformer的模型结构，重点讲解了DETR和Deformable-DETR的改进，以及相关论文列表。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Transformer在视觉领域的应用

前言

在机器翻译， NLP领域，基于attention机制的transformer模型取得了很好的结果，目前有许多工作把Transformer用到CV领域，实现端到端的目标检测和图片分类。在这篇博客中，我们会从Attention机制开始回顾，之后解释Transformer的结构，最后讲解三篇把transformer应用到计算机视觉任务的模型。

Attention机制

Attention机制起源于自然语言处理中的seq2seq模型，这个模型是一个RNN的结构，输入一个句子，输出机器翻译后的句子，或者是这个句子的下一段话。

对于这种模型而言，很大的一个问题就是每一层传给下一层的向量长度是固定的，很难用固定长度的向量表达前面的全部信息，因此在句子很长的时候，模型效果不是很好。

比如

这个时候应该回答That’s why I like apple, 但是因为中间插入了N个词，信息太多了，模型忘记了前面的apple。

解决这个问题的办法就是attention</

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。