从社交媒体话语中学习音乐情感反应
1. 研究背景与动机
音乐情感识别旨在训练计算模型,以估计一首音乐在文化层面上的平均情感反应。然而,当前该领域面临诸多挑战。一方面,低层次的声学描述符与人类听众感知到的特征之间存在巨大的语义差距,而且版权问题限制了研究人员获取音频信息,阻碍了将音频信息作为特征空间的探索。另一方面,并非所有音乐都包含歌词,这限制了仅依靠歌词进行情感预测的方法的通用性。此外,研究人员还探索了心率、皮肤电活动和面部表情视频等其他模态,但往往成效不佳。
基于此,研究人员提出了一种新颖的方法,即仅利用提及某首歌曲的社交媒体对话来学习该歌曲的连续效价和唤醒值。具体做法是,研究人员利用四个音乐情感数据集(AMG1608、PMEmo、DEAM 和 Deezer)的歌曲列表,编译了一个大型的社交媒体音乐话语数据集,并训练了几个大语言模型,仅根据这些社交媒体评论来预测音乐情感值,而不依赖音频信号分析或歌词信息。
2. 相关工作
2.1 声学特征
传统上,研究人员在探索音乐情感识别模型时,主要依赖从歌曲音频信号中提取的低层次特征。这些特征通常来自常见的音频工具包和框架,如 PsySound、MARSYAS、jAudio、YAFFe、OpenSmile 或 Essentia。多年来,研究人员探索了数千个测量音高、旋律、和声、节奏、动态、音色和表现力的特征。
在利用这些描述性音频特征训练机器学习模型时,研究人员尝试了多种算法,包括线性回归、支持向量机、支持向量回归器、随机森林和高斯模型等。近年来,深度学习方法如自编码器、生成对抗网络、卷积神经网络和循环神经网络也被广泛应用。
然而,智能系统仅基于声学特
超级会员免费看
订阅专栏 解锁全文
1144

被折叠的 条评论
为什么被折叠?



