(九十三):Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transform

本文介绍了针对Transformer架构的可解释性方法,包括双模态和编码器-解码器Transformer的解释。方法通过注意力图初始化和更新规则,适用于自我注意、共同注意和编码器-解码器注意。实验结果表明,该方法在解释多模态任务和目标检测任务中优于现有方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 出处: ICCV 2021: 387-396
  • 代码:https://github.com/hila-chefer/ Transformer-MM-Explainability
  • 题目:解释双模态和编码器-解码器变压器的一般注意模型可解释性
  • 主要内容:

Abstract

Transformers越来越多地主导多模态推理任务,例如视觉问题回答,由于它们能够利用自我注意和共同注意机制将信息文本化,从而取得了最先进的结果。这些注意力模块也在其他计算机视觉任务中发挥作用,包括目标检测和图像分割。与只使用自我注意的变形金刚不同,具有共同注意的Transformers需要同时考虑多个注意图,以便突出显示与模型输入中的预测相关的信息
在这项工作中,我们提出了第一种方法来解释任何基于变压器的架构的预测,包括双模态变压器和共同关注的变压器
我们提供了通用的解决方案,并将其应用于这些架构中最常用的三种:(i)纯粹的自我注意,(ii)自我注意与共同注意相结合,以及(iii)编码器-解码器注意
我们证明了我们的方法优于现有的所有从单一模态可解释性改编的方法。
我们的代码可以在:https://github.com/hila-chefer/ Transformer-MM-Explainability获得。

1. Introduction

多模态Transformers可能会改变计算机

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值