基于TKEO的声门闭合瞬间(GCI)检测方法解析
1. TKEO及其与GCI的关系
语音产生通常可以用源 - 滤波器模型来建模,其中声道被假设为线性滤波器系统。但实际上,声道在语音产生过程中是非线性的。H. M. Teager和S. M. Teager揭示了语音中的非线性证据,随后Kaiser提出了一个简单的算子来计算考虑非线性的瞬时语音“能量”。
传统能量仅考虑振幅,而Kaiser提出的“能量”算子还包含了频率的影响,表明语音“能量”取决于振幅和频率。这个非线性“能量”算子(即Teager - Kaiser能量算子,简称TKEO)定义如下:
- 连续形式:$\Psi [x(t)] = \dot{x}(t)^2 - x(t)\ddot{x}(t)$
- 离散形式:$\Psi [x(n)] = x(n)^2 - x(n - 1)x(n + 1)$
TKEO在许多领域有广泛应用,如能量分离、信号分析、语音相关识别以及瞬态事件检测等。不过,只有少数研究采用TKEO来估计声门闭合瞬间(GCI)。一些研究虽然使用了TKEO来提取GCI,但在准确性方面还有待提高。
使用TKEO来估计GCI有以下几个原因:
1. 高分辨率 :TKEO反映瞬时“能量”,每个时刻只需三个样本计算,适合检测不连续性。
2. 计算高效 :计算简单,在实时应用中具有显著优势。
3. 适用于非平稳信号 :无需像LPR那样将语音分割成重叠帧。
4. 类似高通滤波器 :能增强信号的高频部分,捕捉局
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



