摘要:声音也是识别对象的一种重要数据源。其中根据声音来识别声音所处的环境也是语音识别的研究内容之一。
一、思路
1、SoundNet模型在视频数据中先预训练,视频任务可能是场景识别,可参考这篇文章SoundNet: Learning Sound Representations from Unlabeled Video。
2、迁移学习:5层的soundnet只取前3层作为迁移层,在新数据集中训练时保持着三层不变,其余两层随机初始化,再训练。
3、在新数据如IEMOCAP中fine-tuning

二、实验数据

三、实验结果
评价指标:AUC
Scratch表示随机初始化的SoundNet。

四、总结
1、面对音频数据稀缺,给出了很好的解决思路,可根据SoundNet文章中的思路,先从视频数据入手,学习SoundNet参数,然后应用到自己的场景中;
2、跨语言迁移学习:文章中从英语场景迁移到汉语场景,效果比单一数据训练提升很大;
3、YFCC100m 、Google AudioSet可用于预训练模型。
参考文献:
[1] ElShaer M E A, Wisdom S, Mishra T. Transfer Learning From Sound Representations For Anger Detection in Speech[J]. arXiv preprint arXiv:1902.02120, 2019.
声音环境识别技术
本文介绍了一种基于SoundNet模型的声音环境识别技术。该技术通过在视频数据上进行预训练,随后进行迁移学习,并最终在特定数据集(如IEMOCAP)上进行微调。实验结果显示,采用此方法能有效提高声音环境识别的准确性。
412

被折叠的 条评论
为什么被折叠?



