多模态混合代码语音情感分类方法研究
1. 研究背景
随着社交媒体的发展,文本情感分析凭借大量预处理工具和丰富的内容,成为一种流行且预测准确率较高的情感分类方法。许多机器学习模型可用于情感分类,而基于方面的深度学习模型能更准确地捕捉真实情感。近年来,语音内容日益增多,语音情感分析将成为过滤内容的必要手段,不仅能捕捉情感,还能判断语音内容的极性,且无需进行语音转文本操作。然而,当前利用自然语言处理(NLP)实现这些任务的模型复杂且数据需求大。
为解决低资源数据问题,研究采用无监督方法,使用基于Transformer的预训练模型BERT和wav2vec2的XLSR分别获取NLP和语音嵌入,将这些嵌入作为数据集训练简单的全连接神经网络(FCNN)模型,并结合少样本学习(FSL)来提高分类效果。研究目标是对低资源混合代码内容的语音信号进行情感分类,并在自定义数据集上评估模型。
2. 研究方法
研究分为两个阶段进行。在第一阶段,使用预训练的wav2vec2和BERT生成的嵌入训练FCNN模型,然后使用测试集进行测试和验证,以评估模型的准确性。需要注意的是,BERT和wav2vec2生成的嵌入形状不同,在组合时需要解决一些挑战。
2.1 FCNN架构
- 仅使用wav2vec2嵌入 :为了检查仅使用语音嵌入时模型的准确性,将从wav2vec2获得的嵌入分为测试集和训练集。首先,使用wav2vec2嵌入作为输入训练FCNN,然后使用训练好的FCNN的权重重建另一个FCNN模型,并将测试集输入该模型,以获得分类后的情感作为输出。
- 结合BERT
超级会员免费看
订阅专栏 解锁全文
1240

被折叠的 条评论
为什么被折叠?



