基于瞳孔反应的隐式情感视频标签与多媒体多标签分类方法
基于瞳孔反应的隐式情感视频标签方法
在情感视频分析领域,利用瞳孔反应进行隐式情感视频标签是一种创新的方法。该方法主要涉及长短期记忆网络(LSTM)、决策级融合等技术,并通过实验验证了其有效性。
长短期记忆网络(LSTM)
LSTM是一种递归神经网络,能够学习序列预测问题中的顺序依赖性。为了获得每个类别的概率估计,在输出层应用了softmax函数。
决策级融合
该方法中,概率支持向量机(SVM)基于全局特征输出概率估计,LSTM网络基于序列特征输出概率估计。最终的概率估计通过求和规则将两个模型的输出概率结合起来。求和规则定义如下:
[g_i = \frac{\sum_{m\in M} P_m(c_i|f)}{\sum_{i = 1}^{K}\sum_{m\in M} P_m(c_i|f)} = \frac{1}{|M|}\sum_{m\in M} P_m(c_i|f)]
其中,$M$ 是选择用于融合的分类模型的集合,$|M|$ 是 $M$ 中这些模型的数量,$K$ 是类别的数量,$P_m(c_i|f)$ 是模型 $m$ 得到的特征 $f$ 属于类别 $c_i$ 的后验概率。最终决策是选择 $g_i$ 最高的类别 $c_i$。在实际工作中,可简化为:
[g_i = \frac{1}{2}(P_{svm}(c_i|f_v) + P_{lstm}(c_i|f_s))]
其中,$P_{svm}(c_i|f_v)$ 是学习到的概率SVM得到的向量特征 $f_v$ 属于类别 $c_i$ 的后验概率,$P_{lstm}(c_i|f_s)$ 是学习到的LST
瞳孔反应视频标签与多媒体多标签分类法
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



