Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis阅读笔记

最新推荐文章于 2025-03-25 15:30:35 发布

B站：阿里武

最新推荐文章于 2025-03-25 15:30:35 发布

阅读量675

点赞数 1

分类专栏：多模态文章标签：多模态情感分析模态融合三模态 mulitmodal

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq874455953/article/details/116562719

版权

多模态专栏收录该内容

21 篇文章

订阅专栏

文章目录

Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis
模型结构
实验
Interpretation Analysis

Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis

任务：多模态情感分类

简述：之前的多模态情感分析SOTA的方法一般基于复杂神经网络模型，由于其黑盒性，在进行预测时不具有很好的解释性，为了让模型具有更好的解释性，作者受胶囊网络启发，采用了一种路由的方法来动态调节输入模态和输出表示之间的权重以及输出表示，简单来看，每个迭代采用某种规则计算，最后使用了作者自己定义的local和global解释性证明了该路由模型具有解释性。其中global解释性使用了区间估计，挺有意思的，可以关注一下。

模型结构

模型包括三个阶段

encoding, routing,prediction

在这里插入图片描述

encoding

使用Multimodal Transformer (MulT) 对特征序列进行编码，得到两个特征

特征编码表示的就是该模态特征信息fi
度量信息（0-1的一个数字）表示的是该模态特征在模型激活的程度记为pi

Routing

路由的目的是为特征得到一个可解释性的表示, 这里称他为concepts

路由的第一步是用相等的权重初始化concepts，其中所有特征都是相同重要性。

然后路由的核心部分是一个迭代过程，该过程将强制将每个特征仅分配给一个输出表示

形式上，每个concepts cj都表示为维数dc的一维向量。在每个concepts cj和解释因子fi之间定义了线性权重rij（我们称之为路由效率系数）

第一步：Routing adjustment

计算 concepts 和特征的相关系数

在这里插入图片描述

其中： fi 表示 i模态的特征向量 wij 表示一个权重矩阵

第二步： Concept update

用前面算出的相关系数来计算新的 concepts

在这里插入图片描述

pi 是激活程度

对于Routing 的总结：

在这里插入图片描述

我们在上图中总结了路由过程

该过程在给出模态特征（fi），局部权重（Wij）和pi的情况下返回concepts （cj）。

我们用相同的权重初始化计算得到concepts
我们迭代地对路由系数（rij）和concepts 更新进行调整
我们返回更新的concepts

Prediction

预测的话则是使用一个线性加权变化对特征进行整合

在这里插入图片描述

然后接 solfmax 分类预测即可

实验

在这里插入图片描述

在可解释方法里面效果比较好

Interpretation Analysis

这里解释为什么单模态特征双模态特征和三模态特征有区别，也就是激活程度和相关系数

作者给了6个例子在这里插入图片描述

例子1：

左上角例子中：

一位演讲者正在介绍电影Sweeny Todd。他说这部电影是音乐剧，并建议那些不喜欢音乐的人不要看这部电影。由于他对自己喜欢还是不喜欢这部电影没有任何个人判断，因此尽管文本模态包含“don‘t”，但他的情绪仍被判定位中立。

在视觉模态（即视频）中，当他提到这部电影是音乐剧时，他皱着眉头，但是我们不能仅仅通过看视觉模态来断定他的情感是中立的。通过同时查看视觉和文本（双模态），我们判断这是中立

由图中可以看到，该模型为text-vision双模态提供了很高的pi rij值，表明它对预测有很大贡献，这证实了我们上面的推理。

例子2

同样，对于左下角的示例，演讲者正在分享她对如何进行百老汇演出的拍卖的经验。她谈到自己的非常详细和成功的经历，在文本中出现了love等积极词语，而且在其他模也出现微笑（视觉模态）和快乐的语气（声音模态）。我们相信所有模态都在预测中起作用。

结果，根据我们的模型，三模态特征的pi rij值很高，表明它对预测有很大贡献，

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。