文章目录
Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis
任务:多模态情感分类
简述:之前的多模态情感分析SOTA的方法一般基于复杂神经网络模型,由于其黑盒性,在进行预测时不具有很好的解释性,为了让模型具有更好的解释性,作者受胶囊网络启发,采用了一种路由的方法来动态调节输入模态和输出表示之间的权重以及输出表示,简单来看,每个迭代采用某种规则计算,最后使用了作者自己定义的local和global解释性证明了该路由模型具有解释性。其中global解释性使用了区间估计,挺有意思的,可以关注一下。
模型结构
模型包括三个阶段
encoding, routing,prediction
encoding
使用Multimodal Transformer (MulT) 对特征序列进行编码, 得到两个特征
- 特征编码 表示的就是该模态特征信息fi
- 度量信息(0-1的一个数字) 表示的是该模态特征在模型激活的程度记为pi
Routing
路由的目的是为特征得到一个可解释性的表示, 这里称他为concepts
路由的第一步是用相等的权重初始化concepts,其中所有特征 都 是相同重要性。
然后路由的核心部分是一个迭代过程,该过程将强制将每个特征仅分配给一个输出表示
形式上,每个concepts cj都表示为维数dc的一维向量。 在每个concepts cj和解释因子fi之间定义了线性权重rij(我们称之为路由效率系数)
第一步:Routing adjustment
计算 concepts 和 特征 的相关系数
其中 : fi 表示 i模态的 特征向量 wij 表示 一个权重矩阵
第二步: Concept update
用前面算出的 相关系数 来计算 新的 concepts
pi 是 激活程度
对于Routing 的总结:
我们在上图中总结了路由过程
该过程在给出 模态特征(fi),局部权重(Wij)和pi的情况下返回concepts (cj)。
- 我们用 相同的权重初始化 计算得到concepts
- 我们迭代地对路由系数(rij)和concepts 更新进行调整
- 我们返回更新的concepts
Prediction
预测的话则是 使用一个线性加权变化 对特征进行整合
然后接 solfmax 分类预测即可
实验
在可解释方法里面 效果比较好
Interpretation Analysis
这里解释 为什么 单模态特征 双模态特征 和三模态特征 有区别, 也就是激活程度和相关系数
作者给了6个例子
例子1:
左上角例子中:
一位演讲者正在介绍电影Sweeny Todd。 他说这部电影是音乐剧,并建议那些不喜欢音乐的人不要看这部电影。 由于他对自己喜欢还是不喜欢这部电影没有任何个人判断,因此尽管文本模态 包含“don‘t”,但他的情绪仍被判定位中立。
在视觉模态(即视频)中,当他提到这部电影是音乐剧时,他皱着眉头,但是我们不能仅仅通过看视觉模态来断定他的情感是中立的。 通过同时查看视觉和文本(双模态),我们判断这是中立
由图中可以看到, 该模型为text-vision双模态提供了很高的pi rij值,表明它对预测有很大贡献,这证实了我们上面的推理。
例子2
同样,对于左下角的示例,演讲者正在分享她对如何进行百老汇演出的拍卖的经验。 她谈到自己的非常详细和成功的经历,在文本中出现了love等积极词语, 而且在其他模也出现 微笑 (视觉模态)和 快乐的语气(声音模态)。 我们相信所有模态都在预测中起作用。
结果,根据我们的模型,三模态特征的pi rij值很高,表明它对预测有很大贡献,