深度学习论文上的注意力可视化话图怎么来?

作者 | Hao Bai 编辑 | 自动驾驶之心

原文链接:https://www.zhihu.com/question/439389563/answer/3217326241

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心计算机视觉技术交流群

本文只做学术分享,如有侵权,联系删文

泻药。自从DINO被提出后,注意力图的可视化瞬间成为热点。这篇tutorial就来讨论一下训练完Transformer后,如何可视化注意力图。典型的注意力图例子如下图:

5523f8cc4d862d0e86f350088a22a7fc.png

DINO首先提出了一种方法。对于ViT的第 l 层的第 k 个头,首先计算出自注意力矩阵:

964a5537757807524efeec5502228744.png

其中

9e490595a01c3c2545ef5da122a46cb8.png

其中 为softmax函数, d 为内积, Q,K为输入 X 的线性变换,为第 l 层第 i 个token的表示。

这个式子的意思是,取出某一层中的一个token,计算这个token的仿射与[CLS] token的仿射间的相似度。算出这一层中每个token的相似度后,对全层做softmax,就可以获得每个token与[CLS] token的相对相似度。由于在ViT中token在一开始tokenization的时候就被flatten过了,所以这里的 z 都是长度为 N 的向量。最后得到的 就是一个标量。为什么这里是呢?这个操作相当于拿着[CLS]这个token的vector representation去一个database里面搜索,找到第 i 个token对应的词条的分数。

因为每个 都是标量,所以自注意力矩阵的形状是一个长度为 N 的向量。我们逆一下tokenize过程,就相当于reshape成一个 的矩阵。这个矩阵的大小就等于输入图像的patch数。因此这里每个patch的长度不能太大,否则图中的patch数会很小,导致可视化粒度太大。仔细观察上图,大概一行有64个patch,出来的粒度还可以,所以总体的可视化效果还是比较好的。

CRATE提出,将 Q,K都替换成同一个矩阵 U 之后,ViT本身很差的segmentation能力瞬间涌现了出来。一个demo可以玩:https://colab.research.google.com/drive/1rYn_NlepyW7Fu5LDliyBDmFZylHco7ss?

上图中的最右边一列就是ViT,最左边一列就是CRATE。下图里还有一些例子:edc272ab5a8f545c23b6f10d99bec038.png

『自动驾驶之心知识星球』欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

58d0cb5d73c7c95e7b33fc91d11ea0ae.png

① 全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

7de012dffef9b569924ec6b934d020a2.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内外最大最专业,近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

10e1584ab8bb5208436ed06d01c9cfef.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

cd0d37567bbc26ef30180afeb34ea7fa.jpeg

④【自动驾驶之心】全平台矩阵

ff13bacdf45f20a863cdfddfbaf91b0a.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值