基于飞桨paddlespeech训练中文唤醒词模型

原创已于 2025-04-25 22:29:51 修改 · 3k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#paddlepaddle #人工智能

于 2023-06-08 07:56:44 首次发布

智能语音专栏收录该内容

22 篇文章

订阅专栏

文章讲述了作者如何利用飞桨Paddlespeech框架训练中文唤醒词模型，选择“你好米雅”数据集并结合其他数据集进行训练，处理数据增强和降噪问题，以提高唤醒率和降低误唤醒率。在实际录音测试中发现并解决了频率滤波问题，最终优化模型并评估不同特征维度对唤醒效果的影响。

部署运行你感兴趣的模型镜像

飞桨Paddlespeech中的语音唤醒是基于hey_snips数据集做的。Hey_snips数据集是英文唤醒词，对于中国人来说，最好是中文唤醒词。经过一番尝试，我发现它也能训练中文唤醒词，于是我决定训练一个中文唤醒词模型。

要训练中文唤醒词模型，主要有如下工作要做：找数据集，做数据增强(augmentation)，做标注，训练和评估等。关于数据集，调研下来发现“你好米雅”这个数据集不错。它不仅可以做声纹识别，也可以做唤醒词识别。它录制人数较多，既近场拾音（44.1KHZ）,又用了麦克风阵列远场拾音（16kHZ），还有快速、正常语速、慢速等，极大地丰富了语料。难能可贵的是出品方希尔贝壳还出了一个补充数据集，全是“你好米雅”的相似发音，比如“你好呀”、“你好米”等。把这些作为负样本加入训练，会大大地降低说“你好米雅”相似词的误唤醒率。经过评估后我决定用“你好米雅”这个唤醒词。因为“你好米雅”数据集只有唤醒词语料，为了降低误唤醒，我又把AIDataTang数据集中两三秒左右的语料提取出来作为负样本加入训练。这样整个数据集包括三部分：“你好米雅”的原始数据集，相似发音的补充数据集（作为负样本）和AIDataTang数据集（作为负样本）。先把“你好米雅”数据集中44.1k采样的语料变成16K采样的，再分别将三个数据集分成训练集、验证集、测试集三部分。数据集分好后，还需要做数据增强，目前主要用的是加噪。从NOISEX-92中选取10种典型噪声，再结合各种SNR叠加到干净语音中形成带噪语音。数据增强做好后又把数据集增大了好多，形成一个近300万个wav的数据集。最后写python代码按照paddlespeech里规定的格式做了数据标注，得到了train.json/dev.json/test.json三个文件。在json文件中对于一个wav文件的标注格式如下图：

包括文件的时长、文件的路径、id以及是否是唤醒词等。

以上这些工作做好后就开始训练和评估了，验证集和测试集下的结果都不错。又想试试真实录音的wav的准确率如何，请了几个人在办公室环境下用手机录了“你好米雅”的音频，在得到的模型下去测试，结果让我大失所望，识别率特别低。为什么呢？测试集上的结果可挺好的呀。输入模型的特征是频域的fbank，于是我就从频谱上找差异。对比测试集里能识别的和自己录的不能识别的wav的频谱，发现能识别的在7K HZ附近处做了低通滤波，而不能识别的却没有，具体见下图：

做了7k HZ低通滤波的能识别没做7k HZ低通滤波的不能识别

我试着将不能识别的也在7K HZ附近处做了低通滤波，再去做测试就能识别了。这样自己录的不能识别的原因就找到了：没去做7K HZ附近的低通滤波。整个数据集是由3个子数据集（“你好米雅”数据集，“你好米雅”相似词数据集，AIDATATANG数据集）组成的，前两个是同一出品方且用相同的设备录的。我看了这三个子数据集的频域特性，前两个都在7K HZ附近处做了低通滤波，而AIDATATANG的没有。这暴露了我在数据集准备上的一个错误：没有做到训练集/验证集/测试集频域特性上的一致。

原因找到了，对应的措施就是对原先的数据集做7k HZ处的低通滤波处理。为了再降低误唤醒率，我又找来了cn-celeb数据集，因为这个里面包含的场景更丰富，有singing/vlog/movie/entertainment等。把里面几秒左右的音频都提取出来，先做7k HZ处的低通滤波处理，再把它们作为负样本加入到数据集中。数据处理好后就又开始训练了。一边训练模型，一边请更多的人用手机录“你好米雅”的唤醒词音频，还要对这些录好的做7k HZ处的低通滤波处理。模型训练好后在验证集和测试集上的评估效果（唤醒率和误唤醒率）都很好，再把自己录的音频在模型上跑，唤醒率跟在测试集上保持一致。同时还做了另外一个实验，把测试集里有唤醒词且有噪声的音频提取出来组成一个新的测试集。先在这个集上看唤醒率，再对这个集上的音频做降噪处理，再看唤醒率，发现唤醒率有一定程度的降低。这是模型没有学习降噪算法的结果，模型不像人耳，降噪后听起来更清晰未必能识别。通过这些实验说明：要想在嵌入式设备上语音唤醒效果好，得搞清楚特征提权前有哪些前处理算法（降噪等）。语料最好是在这款嵌入式设备上录，如果没有条件就要把语料过一下这些前处理算法后再拿去训练和评估，也就是要让模型学一下这些前处理算法。

现在的模型输入特征是80维的fbank，我又评估了一下维度改到40维后对唤醒效果的影响。评估下来发现唤醒率有0.2%左右的下降，误唤醒率有0.3%左右的提升，在可接受的范围内。好处是模型参数减少了1.6k（见下图），推理时的运算量也有一定程度的减少。

目前用的是公开数据集里的中文唤醒词，通过实践找到一些能提高唤醒率和降低误唤醒率的方法。等做产品时用的数据集是私有的，把找到的方法用到模型训练上，就能出一个性能不错的语音唤醒方案。

为了更好的跟大家沟通，互帮互助，我建了一个讨论群。如您有兴趣，请搜薇号 david_tym ，共同交流。谢谢！

您可能感兴趣的与本文相关的镜像

Yolo-v8.3

Yolo

YOLO（You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出，因其高速和高精度而广受欢迎

6 条评论

Alltobenice 2024.03.23
大佬你好，请问评估模型参数的代码可以分享一下吗，使用summary函数时不知道model和inputsize该如何设置

星唯向导 2023.11.22
大佬儿，我最近项目刚接触语音领域，尝试复现语音唤醒的训练测试过程，和您遇到了一样的问题，测试集效果很好，但是自己录制的音频效果较差。正样本是“你好米娅”的官方数据集，负样本是从cn-celeb和Common Voice（小部分）。尝试了在7k Hz处进行低通滤波处理，保证频域特征的一致性，效果也未改善，甚至于验证自己录制的音频时，未作处理的置信度会更高一些（依然低的不忍直视），尝试了多种思路，都没有成果，我怀疑是我低通滤波处理错了，造成了反向的影响？（方法是GPT生成的）第一次接触这个领域，如可以请求大佬指点一二，感激不尽。代码如下： def butter_lowpass_filter(data, cutoff_frequency, sampling_rate, order=5): nyquist = 0.5 * sampling_rate normal_cutoff = cutoff_frequency / nyquist b, a = butter(order, normal_cutoff, btype='low', analog=False) y = lfilter(b, a, data) return y def apply_lowpass_filter(input_file, output_file, cutoff_frequency=7000): # 读取音频文件 sampling_rate, data = wavfile.read(input_file) # 进行低通滤波 filtered_data = butter_lowpass_filter(data, cutoff_frequency, sampling_rate) # 将滤波后的数据写入新的音频文件 wavfile.write(output_file, sampling_rate, np.asarray(filtered_data, dtype=np.int16))
- david_tym回复星唯向导 2023.11.29
  低通滤波是否做错了一看处理后的频谱就知道了，在7k HZ处有一个明显的下降

change0028 2023.10.23
跪求大佬分享一下数据集，感激不尽！！

sinat_32048077 2023.09.12
请问worker_id是什么意思

Maybesure2122 2023.06.09
博主能分享一下你好miya训练好的模型吗谢谢