触发字检测（Trigger Word Detection）

触发字检测系统

最新推荐文章于 2022-03-15 15:29:00 发布

原创最新推荐文章于 2022-03-15 15:29:00 发布 · 1.6k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #python #语音识别 #自然语言处理

笔记同时被 3 个专栏收录

165 篇文章

订阅专栏

吴恩达深度学习笔记

92 篇文章

订阅专栏

深度学习知识点储备

68 篇文章

订阅专栏

本文介绍如何构建触发字检测系统，例如通过Alexa唤醒Amazon Echo。通过将音频片段转换为声谱图特征并利用RNN进行处理，系统可在检测到特定触发字时做出响应。

来源：Coursera吴恩达深度学习课程

随着语音识别的发展，越来越多的设备可以通过你的声音来唤醒，这有时被叫做触发字检测系统（rigger word detection systems）。我们来看一看如何建立一个触发字系统。

触发字系统的例子包括Amazon echo，它通过单词Alexa唤醒；还有百度DuerOS设备，通过"小度你好"来唤醒；苹果的Siri用Hey Siri来唤醒；Google Home使用Okay Google来唤醒，这就是触发字检测系统。假如你在卧室中，有一台Amazon echo，你可以在卧室中简单说一句: Alexa, 现在几点了?就能唤醒这个设备。它将会被单词"Alexa"唤醒，并回答你的询问。Andrew想教会我们如何构建一个触发字检测系统。

如上图所示，现在有一个这样的RNN结构，我们要做的就是把一个音频片段（an audio clip）计算出它的声谱图特征（spectrogram features）得到特征向量x^<1>, x^<2>, x^<3>...，然后把它放到RNN中，最后定义我们的目标标签y。假如音频片段中的这一点是某人刚刚说完一个触发字，比如"Alexa"，或者"小度你好" 或者"Okay Google"，那么在这一点之前，你就可以在训练集中把目标标签都设为0，然后在这个点之后把目标标签设为1。假如在一段时间之后，触发字又被说了一次，比如是在这个点说的，那么就可以再次在这个点之后把目标标签设为1。这样的标签方案对于RNN来说是可行的，并且确实运行得非常不错。不过该算法一个明显的缺点就是它构建了一个很不平衡的训练集（a very imbalanced training set），0的数量比1多太多了。

还有一个解决方法，虽然听起来有点简单粗暴，但确实能使其变得更容易训练。如上图所示，比起只在一个时间步上去输出1，其实你可以在输出变回0之前，多次输出1，或说在固定的一段时间内输出多个1。这样就稍微提高了1与0的比例。在音频片段中，触发字刚被说完之后，就把多个目标标签设为1，这里触发字又被说了一次。说完以后，又让RNN去输出1。在之后的编程练习中，你可以进行更多这样的操作。

Andrew：这就是触发字检测，希望你能对自己感到自豪。因为你已经学了这么多深度学习的内容，现在你可以只用几分钟时间，就能用一张幻灯片来描述触发字能够实现它，并让它发挥作用。你甚至可能在你的家里用触发字系统做一些有趣的事情，比如打开或关闭电器，或者可以改造你的电脑，使得你或者其他人可以用触发字来操作它。

说明：记录学习笔记，如果错误欢迎指正！转载请联系我。