端到端流式可定制关键词检测与普通话学龄前儿童连续附加边界声调生产研究
在语音处理和语言发展研究领域,端到端流式可定制关键词检测以及普通话学龄前儿童连续附加边界声调的生产是两个重要的研究方向。下面将分别对这两方面的研究进行详细介绍。
端到端流式可定制关键词检测
在关键词检测任务中,有多种模型和方法可供选择。为了评估不同模型的性能,研究人员在Hey - snips数据集上对关键词“hey - snips”进行了零样本性能测试,测试指标为误报率(FAR)。具体结果如下表所示:
| 模型 | FAR | Hey - snips |
| — | — | — |
| Automatic - gain [12] | 0.3 FA/hour | 0.739 |
| Detection - filters [4] | 0.3 FA/hour | 0.702 |
| 我们的模型 | 0.3 FA/hour | 0.856 |
从表中可以看出,我们的模型在误报率为0.3次/小时的情况下,表现优于其他两种模型。
此外,研究还探讨了训练过程中负样本、多标签机制以及模型效率等因素对关键词检测性能的影响。
- 负样本的影响 :为了研究负样本在训练过程中的影响,研究人员评估了不同负样本构建策略下的模型性能。负样本构建策略包括混合样本(同时使用随机样本和更具混淆性的样本)、全随机样本(仅使用随机采样的负输入)、全困难样本(仅使用手动构建的混淆负输入)和无负样本(仅在训练期间使用正关键词和填充词)。具体评估结果如下表所示:
| 样本策略 | LibriKWS test - clean |
超级会员免费看
订阅专栏 解锁全文
24

被折叠的 条评论
为什么被折叠?



