Learning Modality-Specific Representations with Self-SupervisedMulti-Task Learning for Multimodal Sentiment Analysis
摘要
1.设计了一种标签生成模块,获得独立的单模态标签
2.设计权重调整策略,平衡不同子任务之间的学习进程
特征学习中 前向引导 :捕捉不同模态之间的差异信息
后向引导:附加损失函数作为先验约束,使得模态表征既包含一致信息又包含互补信息
paper的贡献:
1.提出了一个在模态表示和类中心之间的相对距离值,这个值与模态输出成正相关
2.设计了一种基于自监督策略的单模态标签生成模块。此外,还引入了一种新的权重自调整策略来平衡不同的任务损失约束。
3.验证单模态标签生成模块的稳定性和可靠性。
从多模态中学习相同信息,从单模态中学习差异信息。
使用了Bert作为预训练微调模块。
引入单模态子任务来帮助特定模态的特征学习。
采用了硬共享策略,并设计了一种权重调整方法来解决模态间如何平衡的问题。
(硬共享:多个任务的网络共享隐含层
软共享:在损失函数中,加入对每个任务网络参数之间距离等的正则项)
网络结构
多模态任务中:
文本 —> bert预训练模型
音频 —> librosa ,经过LSTM捕捉时序信息
视频 —> openface等工具, 经过LSTM捕捉时序信息
然后将所有的单模态特征拼接起来,映射到一个低维的空间
单模态任务
三个模态任务共享多模态任务中特征表示层
为了减少不同形态之间的维数差异,我们将它们投射到一个新的特征空间中。然后用线性回归得到单模态结果
ULGM 单模态标签生成模块 是一个非参数模块
使用L1正则化实现损失函数
L
=
1
N
∑
i
N
(
∣
y
^
m
i
−
y
m
i
∣
+
∑
s
{
t
,
a
,
v
}
W
s
i
∗
∣
y
^
s
i
−
y
s
(
i
)
∣
)
L=\frac{1}{N} \sum_{i}^{N}\left(\left|\hat{y}_{m}^{i}-y_{m}^{i}\right|+\sum_{s}^{\{t, a, v\}} W_{s}^{i} *\left|\hat{y}_{s}^{i}-y_{s}^{(i)}\right|\right)
L=N1i∑N⎝⎛∣∣y^mi−ymi∣∣+s∑{t,a,v}Wsi∗∣∣∣y^si−ys(i)∣∣∣⎠⎞
其中
W
s
i
=
t
a
n
h
(
∣
y
s
(
i
)
−
y
m
∣
)
W_{s}^{i} = tanh \left(\left|y_{s}^{(i)}-y_{m}\right|\right)
Wsi=tanh(∣∣∣ys(i)−ym∣∣∣)