(九十三):Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers
- 出处: ICCV 2021: 387-396
- 代码:https://github.com/hila-chefer/ Transformer-MM-Explainability
- 题目:解释双模态和编码器-解码器变压器的一般注意模型可解释性
- 主要内容:
Abstract
Transformers越来越多地主导多模态推理任务,例如视觉问题回答,由于它们能够利用自我注意和共同注意机制将信息文本化,从而取得了最先进的结果。这些注意力模块也在其他计算机视觉任务中发挥作用,包括目标检测和图像分割。与只使用自我注意的变形金刚不同,具有共同注意的Transformers需要同时考虑多个注意图,以便突出显示与模型输入中的预测相关的信息。
在这项工作中,我们提出了第一种方法来解释任何基于变压器的架构的预测,包括双模态变压器和共同关注的变压器。
我们提供了通用的解决方案,并将其应用于这些架构中最常用的三种:(i)纯粹的自我注意,(ii)自我注意与共同注意相结合,以及(iii)编码器-解码器注意。
我们证明了我们的方法优于现有的所有从单一模态可解释性改编的方法。
我们的代码可以在:https://github.com/hila-chefer/ Transformer-MM-Explainability获得。
1. Introduction
多模态Transformers可能会改变计算机