智能语音之远场关键词识别实践（一）

原创

已于 2025-04-26 21:44:11 修改 · 2.7k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别 #人工智能

于 2022-03-03 08:18:10 首次发布

本文详细介绍了嵌入式芯片公司如何在语音识别领域，特别是远场关键词识别（KWS）上下功夫。首先，公司选择自己录制关键词语料库，包括单声道和多声道数据，然后对语料进行数据增强，如音量、速度、音高等调整以增加多样性。接着，利用CNN进行模型训练，包括数据预处理、模型选择和迭代训练。训练完成后，进行了模型量化以适应嵌入式设备，并用C语言实现了模型推理。整个过程揭示了从语料收集到模型部署的关键步骤和技术挑战。

语音识别主要分两大类：大词汇量连续语音识别技术（Large Vocabulary Continuous Speech Recognition，LVCSR）和关键词识别（keyword Spotting，KWS）。LVCSR由于对算力要求较高，一般在云端（服务器侧）做，而KWS对算力的要求相对较小，可以在终端上做。我们公司是芯片设计公司，主要设计终端上的芯片，想要在语音识别上做点事情，最可能的是做KWS，于是我们就选择KWS来实践语音识别。按距离远近，语音识别可分为近场识别和远场识别，远场的应用场景更丰富些，如智能音箱、智能家居等，如是远场的话需要用到麦克风阵列。讨论下来我们决定做远场下的关键词识别。图1是其框图：（麦克风阵列为圆阵且有四个麦克风，即有四个语音通道）

图 1

从上图可以看出，系统可以分为前端和后端两部分。前端主要包括去混响、声源定位和波速形成（beamforming）、单通道降噪四大模块。混响是指声音信号遇到墙壁、天花板、地面等障碍物形成反射声，并和直达声相叠加的现象。去混响就是去除那些叠加的声音。声源定位是利用多通道语音信号来计算目标说话人的角度和距离从而实现对目标说话人的跟踪，严格的声源定位是指同时确定说话人的角度（包括方位角、俯仰角）和距离。在消费级的麦克风阵列中，通常关心的是声源到达的方向，也就是波达方向（Direction

最低0.47元/天解锁文章