16、利用零时间窗技术提升语音口吃检测性能

最新推荐文章于 2025-10-19 16:08:51 发布

gitlab7runner

最新推荐文章于 2025-10-19 16:08:51 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023精华解读文章标签：口吃检测零时间窗技术 ZTWCC特征

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitlab7runner/article/details/151701453

SPECOM 2023精华解读专栏收录该内容

67 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用零时间窗技术提升语音口吃检测性能

1. 语音信号预处理

1.1 预加重技术

为消除语音信号中低频趋势的影响，采用预加重技术对语音信号 (s[n]) 进行处理。

1.2 语音分段

在每个时刻考虑时长为 (L) 毫秒的语音段。具体而言，对于 (n = 0, 1, …, M - 1) 定义 (s[n])，其中样本数量 (M) 由 (M = L \times \frac{f_s}{1000}) 给出，(f_s) 表示采样频率。

1.3 加窗处理

对当前考虑的语音段应用衰减严重的窗口 (w_1^2[n])，窗口定义如下：
[
w_1[n] =
\begin{cases}
0, & \text{for } n = 0 \
\frac{1}{4} \sin^2(\frac{\pi n}{2N}), & \text{for } n = 1, …, N - 1
\end{cases}
]
考虑具有 (N) 个样本的信号 (s[n]) 的离散傅里叶变换（DFT），其中 (N \gg M)。将 (s[n]) 乘以窗口 (w_1^2[n]) 等效于在频域进行四次积分。然而，在 (n = M - 1) 时刻截断信号可能会在频域产生波纹效应。为减轻这种效应，使用半余弦窗口的平方 (w_2[n])：
[
w_2[n] = 4 \cos^2(\frac{\pi n}{2M}), \text{ where } n = 0, 1, …, M - 1
]
使用 (w_2[n]) 可减少波纹效应并改善信号的频谱

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。