18、深度学习在语音识别中的应用

深度学习赋能语音识别

深度学习在语音识别中的应用

1. 语音作为输入数据

语音是一种通常用于传达信息的声音类型,它是通过介质(如空气)传播的振动。当这些振动频率在 20 Hz 到 20 kHz 之间时,人类可以听到。这些振动可以被捕捉并转换为数字信号,以便在计算机上进行音频信号处理。

通常,语音通过麦克风进行捕捉,之后连续信号会被离散采样。典型的采样率是 44.1 kHz,这意味着每秒会对传入音频信号的振幅进行 44,100 次测量,大约是人类最大听觉频率的两倍。例如,一段时长 1.2 秒的“hello world”语音录音,按照 44.1 kHz 的采样率,大约会有 50,000 个振幅样本。

2. 预处理

为了减少输入数据的规模,在将音频信号输入到语音识别算法之前,通常会对其进行预处理,以减少时间步长。一种常见的转换是将信号转换为频谱图,频谱图展示了信号中频率随时间的变化情况。

具体的频谱转换过程如下:
- 将时间信号划分为重叠的窗口。
- 对每个窗口进行傅里叶变换,将信号在时间上分解为构成该信号的频率。
- 将得到的频率响应压缩到固定的频率区间,这些频率区间的数组被称为滤波器组。

例如,将之前的“hello world”录音划分为 25 ms 的重叠窗口,步长为 10 ms,然后通过加窗傅里叶变换将其转换到频率空间。最终的频率会根据对数尺度(即梅尔尺度)映射到 40 个频率区间。经过这种转换,时间维度从 50,000 个样本减少到 118 个样本,每个样本是一个大小为 40 的向量。

在较旧的语音识别系统中,梅尔尺度滤波器组还会通过去相关处理来去除线性依赖关系,通常是对滤波器组取对数后进行离散余

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值