【正点原子i.MX93开发板试用连载体验】简单的音频分类

神一样的老师

于 2024-07-10 19:07:02 发布

阅读量966

点赞数 18

CC 4.0 BY-SA版权

分类专栏： i.MX 93开发板文章标签：音视频分类数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/bit_mike/article/details/140332082

i.MX 93开发板专栏收录该内容

8 篇文章

订阅专栏

本文最早发表于电子发烧友论坛：

今天测试的内容是进行简单的音频分类。我们要想进行语音控制，就需要构建和训练一个基本的自动语音识别 (ASR) 模型来识别不同的单词。如果想了解这方面的知识可以参考TensorFlow的官方文档：简单的音频识别：识别关键词 | TensorFlow Core。

预训练模型来自Simple Audio Recognition on a Raspberry Pi using Machine Learning (I2S, TensorFlow Lite) - Electronut Labs，我在它提供的代码基础上进行了修改。NXP官方的Model Zoo也提供了类似的代码，不过它需要TensorFlow类，而开发板上默认提供Tflite runtime推理框架，所以我没有使用NXP的方案。

本模型使用 Speech Commands 数据集的一部分，其中包含命令的短（一秒或更短）音频片段，例如“down”、“go”、“left”、“no”、“right”、“stop”、“up”和“yes”。

数据集中的波形在时域中表示，通过计算短时傅里叶变换 (STFT) 将波形从时域信号转换为时频域信号，以将波形转换为[频谱图](频谱图_百度百科 (baidu.com))，显示频率随时间的变化，并且可以表示为二维图像。然后把频谱图图像输入您的神经网络以训练模型。

在前面提到网页中有模型训练的方法。这里采用的是已经训练好的模型。在模型推理部分，首先从wav文件中读取语音数据，如果是双声道的，只使用其中的一个声道。默认音频的采样率是16k，只提取音频中的1s数据进行测试。数据提取后，需要归一化，然后利用STFT转换为频谱图，再输入神经网络进行计算。

程序中使用了scipy库进行STFT处理，所以需要先安装scipy库，执行如下命令：

pip3 install scipy

我在i.MX 93开发板上运行了测试Python程序，它可以正确识别YES和NO。其中yes.wav是我自己录制的。

测试代码和wav文件参见*附件：simple_audio.zip

现在所用的模型是浮点的，只能用于CPU推理而不能使用NPU推理。如果希望使用NPU推理，需要将模型进行转换，并修改程序进行量化处理。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

神一样的老师 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。