端到端流式可定制关键词检测:基于文本自适应神经搜索
1. 引言
随着智能设备和语音助手的广泛应用,关键词检测(KWS)模块作为智能设备始终处于监听模式并及时响应用户的关键组件,其准确性和低延迟对于提升用户体验至关重要。
传统的KWS研究主要聚焦于检测预设的固定关键词,通常由声学模型和后处理模块组成。早期采用隐马尔可夫模型(HMM),后来也有基于无HMM系统直接预测关键词或子词标记序列的方法。声学模型的架构多样,包括卷积神经网络、循环神经网络(RNN)、注意力机制等。然而,这些方法大多无法支持用户在测试时使用任意自定义关键词,且构建系统需要大量特定关键词的训练数据,限制了其泛化能力。
为解决这些问题,出现了多种测试时可定制关键词检测的方法,但多数在离线或非流式模式下运行,不适合实时检测需求。部分流式模式的方法也存在搜索和检测过程开销大、延迟高的问题。
本文提出了一种端到端流式可定制KWS系统,利用文本自适应神经搜索在连续语音流中检测任意关键词,并与传统搜索方法和神经网络搜索方法进行对比,核心贡献如下:
- 端到端框架显著降低了模型复杂度,减少了自适应检测延迟,消除后处理模块确保了训练和评估过程的一致性,实现了模型的联合优化。
- 在触发模块中引入多标签机制,将KWS任务视为级联多标签触发任务,目标函数直接联合优化所有标记的概率,使模型考虑任意关键词的所有信息。
- 神经搜索过程与声学模型解耦,搜索过程独立于特定声学模型,易于扩展到不同的声学模型。
2. 端到端流式框架
2.1 训练样本构建
由于缺乏专门针对可定制关键词检测任务的训练数据集,我们从常见的识别数据集中采
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



