深度学习在语音识别中的应用
1. 语音作为输入数据
语音是一种通常用于传达信息的声音类型,它是通过介质(如空气)传播的振动。当这些振动频率在 20 Hz 到 20 kHz 之间时,人类可以听到。这些振动可以被捕捉并转换为数字信号,以便在计算机上进行音频信号处理。
通常,语音通过麦克风进行捕捉,之后连续信号会被离散采样。典型的采样率是 44.1 kHz,这意味着每秒会对传入音频信号的振幅进行 44,100 次测量,大约是人类最大听觉频率的两倍。例如,一段时长 1.2 秒的“hello world”语音录音,按照 44.1 kHz 的采样率,大约会有 50,000 个振幅样本。
2. 预处理
为了减少输入数据的规模,在将音频信号输入到语音识别算法之前,通常会对其进行预处理,以减少时间步长。一种常见的转换是将信号转换为频谱图,频谱图展示了信号中频率随时间的变化情况。
具体的频谱转换过程如下:
- 将时间信号划分为重叠的窗口。
- 对每个窗口进行傅里叶变换,将信号在时间上分解为构成该信号的频率。
- 将得到的频率响应压缩到固定的频率区间,这些频率区间的数组被称为滤波器组。
例如,将之前的“hello world”录音划分为 25 ms 的重叠窗口,步长为 10 ms,然后通过加窗傅里叶变换将其转换到频率空间。最终的频率会根据对数尺度(即梅尔尺度)映射到 40 个频率区间。经过这种转换,时间维度从 50,000 个样本减少到 118 个样本,每个样本是一个大小为 40 的向量。
在较旧的语音识别系统中,梅尔尺度滤波器组还会通过去相关处理来去除线性依赖关系,通常是对滤波器组取对数后进行离散余
深度学习赋能语音识别
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



