15、端到端流式可定制关键词检测:基于文本自适应神经搜索

端到端流式可定制关键词检测:基于文本自适应神经搜索

1. 引言

随着智能设备和语音助手的广泛应用,关键词检测(KWS)模块作为智能设备始终处于监听模式并及时响应用户的关键组件,其准确性和低延迟对于提升用户体验至关重要。

传统的KWS研究主要聚焦于检测预设的固定关键词,通常由声学模型和后处理模块组成。早期采用隐马尔可夫模型(HMM),后来也有基于无HMM系统直接预测关键词或子词标记序列的方法。声学模型的架构多样,包括卷积神经网络、循环神经网络(RNN)、注意力机制等。然而,这些方法大多无法支持用户在测试时使用任意自定义关键词,且构建系统需要大量特定关键词的训练数据,限制了其泛化能力。

为解决这些问题,出现了多种测试时可定制关键词检测的方法,但多数在离线或非流式模式下运行,不适合实时检测需求。部分流式模式的方法也存在搜索和检测过程开销大、延迟高的问题。

本文提出了一种端到端流式可定制KWS系统,利用文本自适应神经搜索在连续语音流中检测任意关键词,并与传统搜索方法和神经网络搜索方法进行对比,核心贡献如下:
- 端到端框架显著降低了模型复杂度,减少了自适应检测延迟,消除后处理模块确保了训练和评估过程的一致性,实现了模型的联合优化。
- 在触发模块中引入多标签机制,将KWS任务视为级联多标签触发任务,目标函数直接联合优化所有标记的概率,使模型考虑任意关键词的所有信息。
- 神经搜索过程与声学模型解耦,搜索过程独立于特定声学模型,易于扩展到不同的声学模型。

2. 端到端流式框架
2.1 训练样本构建

由于缺乏专门针对可定制关键词检测任务的训练数据集,我们从常见的识别数据集中采

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值