18、深度学习在语音识别中的应用

深度学习赋能语音识别

青柠汽水308

于 2025-10-21 09:24:40 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习实战指南文章标签：深度学习语音识别声学模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/solidity8miner/article/details/154374743

深度学习实战指南专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度学习在语音识别中的应用

1. 语音作为输入数据

语音是一种通常用于传达信息的声音类型，它是通过介质（如空气）传播的振动。当这些振动频率在 20 Hz 到 20 kHz 之间时，人类可以听到。这些振动可以被捕捉并转换为数字信号，以便在计算机上进行音频信号处理。

通常，语音通过麦克风进行捕捉，之后连续信号会被离散采样。典型的采样率是 44.1 kHz，这意味着每秒会对传入音频信号的振幅进行 44,100 次测量，大约是人类最大听觉频率的两倍。例如，一段时长 1.2 秒的“hello world”语音录音，按照 44.1 kHz 的采样率，大约会有 50,000 个振幅样本。

2. 预处理

为了减少输入数据的规模，在将音频信号输入到语音识别算法之前，通常会对其进行预处理，以减少时间步长。一种常见的转换是将信号转换为频谱图，频谱图展示了信号中频率随时间的变化情况。

具体的频谱转换过程如下：
- 将时间信号划分为重叠的窗口。
- 对每个窗口进行傅里叶变换，将信号在时间上分解为构成该信号的频率。
- 将得到的频率响应压缩到固定的频率区间，这些频率区间的数组被称为滤波器组。

例如，将之前的“hello world”录音划分为 25 ms 的重叠窗口，步长为 10 ms，然后通过加窗傅里叶变换将其转换到频率空间。最终的频率会根据对数尺度（即梅尔尺度）映射到 40 个频率区间。经过这种转换，时间维度从 50,000 个样本减少到 118 个样本，每个样本是一个大小为 40 的向量。

在较旧的语音识别系统中，梅尔尺度滤波器组还会通过去相关处理来去除线性依赖关系，通常是对滤波器组取对数后进行离散余

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。