利用零时间窗技术提升语音口吃检测性能
1. 语音信号预处理
1.1 预加重技术
为消除语音信号中低频趋势的影响,采用预加重技术对语音信号 (s[n]) 进行处理。
1.2 语音分段
在每个时刻考虑时长为 (L) 毫秒的语音段。具体而言,对于 (n = 0, 1, …, M - 1) 定义 (s[n]),其中样本数量 (M) 由 (M = L \times \frac{f_s}{1000}) 给出,(f_s) 表示采样频率。
1.3 加窗处理
对当前考虑的语音段应用衰减严重的窗口 (w_1^2[n]),窗口定义如下:
[
w_1[n] =
\begin{cases}
0, & \text{for } n = 0 \
\frac{1}{4} \sin^2(\frac{\pi n}{2N}), & \text{for } n = 1, …, N - 1
\end{cases}
]
考虑具有 (N) 个样本的信号 (s[n]) 的离散傅里叶变换(DFT),其中 (N \gg M)。将 (s[n]) 乘以窗口 (w_1^2[n]) 等效于在频域进行四次积分。然而,在 (n = M - 1) 时刻截断信号可能会在频域产生波纹效应。为减轻这种效应,使用半余弦窗口的平方 (w_2[n]):
[
w_2[n] = 4 \cos^2(\frac{\pi n}{2M}), \text{ where } n = 0, 1, …, M - 1
]
使用 (w_2[n]) 可减少波纹效应并改善信号的频谱
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



