题目
Leveraging Unpaired Text Data for Training End-to-End Speech-to-Intent Systems
链接
https://arxiv.org/pdf/2010.04284.pdf
标签
Speech-to-intent, spoken language understanding, end-to-end systems, pre-trained text embedding, synthetic speech
augmentation
Contributions
- 运用迁移学习的知识,联合训练speech-to-intent 模型和text-to-intent模型,利用较多的text-intent数据作为基于speech-intent的端到端S2I(speech-to-intent)模型的补充
- 为了解决speech-intent数据集的稀缺,通过TTS系统把text-intent数据转换为speech-intent数据,以达到数据增强的目的。
亮点与启发
由于深度神经网络极度依赖于大量的数据来驱动得到较好的效果,而对于端到端的S2I系统, intent-labeled speech data太过稀缺了,为了比肩传统的模型(speech-text-intent),需要设法弥补数据稀缺的问题。
为解决此问题的答案就是——迁移学习。
基于Text-intent类数据较多这一现状,使用类似bert的预训练模型,对基于speech-intent的声学模型进行“指导”,将知识迁移到

该论文提出了一种利用未配对文本数据训练端到端语音到意图(S2I)系统的方法。通过迁移学习,结合speech-to-intent和text-to-intent模型,利用丰富的text-intent数据补充speech-intent数据的不足。通过TTS系统进行数据增强,并使用预训练的text模型指导speech-intent模型,提高端到端系统的性能。实验表明,即使在少量speech-intent数据下,这种方法也能实现较好的准确率。
最低0.47元/天 解锁文章
1221

被折叠的 条评论
为什么被折叠?



