非言语声音识别技术研究
1. 特征提取
在声音识别领域,特征提取是关键的第一步。常见的特征提取方法有梅尔频率倒谱系数(MFCC)和拉普拉斯变换。
1.1 MFCC提取
MFCC提取的一般流程需遵循特定准则。在评估频谱图 $P(\nu)$ 时,要依据不确定性原理 $\Delta t\Delta \nu \propto(4\pi)^{-2}$ 考虑频率分辨率 $\Delta \nu$。由于无法对任意信号持续时间 $\Delta t$ 实现固定分辨率 $\Delta \nu$,所以将信号 $\psi(t)$ 细分为固定时长 $\Delta t$ 的较小帧(如图82.4a),并以固定分辨率 $\Delta \nu = 1/(44,100 \times 512)$ Hz进行傅里叶分析。
每个帧会生成一系列MFCC。设 $\varphi_{\ell}(\tau)$ 为对应第 $\tau$ 帧的第 $\ell$ 个MFC系数。因不同时长的信号会产生不同大小的MFCC集合,所以需进一步处理。对于非言语声音识别,考虑时间平均MFCC:
$$\langle\varphi_{\ell}\rangle = \frac{1}{M} \sum_{\tau = 0}^{M - 1} \varphi_{\ell}(\tau)$$
其中 $M > 0$ 是帧的总数,$\ell = 0, 1, \cdots, n - 1$。
MFCC提取可使用 python-speech-features 包,默认设置如下:
- 帧持续时间长度 $\Delta t = 20$ ms
- 两帧之间的时间步长 = 1
超级会员免费看
订阅专栏 解锁全文
1409

被折叠的 条评论
为什么被折叠?



