语音处理中的声门源估计与发声类型自动分类
在语音处理领域,声门源估计和发声类型的自动分类是两个重要的研究方向。下面将详细介绍相关的技术方法和实验结果。
声门源估计
声门源估计对于理解语音产生机制和提高语音处理技术的性能至关重要。传统的基于零极点变换(ZZT)的分解技术在声门源估计中具有一定的应用,但存在对声门闭合瞬间(GCI)检测误差敏感的问题。
ZZT 语音分解原理
对于离散信号 $x(n)$ 的一系列 $N$ 个样本 $(x(0), x(1), …x(N - 1))$,ZZT 表示定义为相应 Z 变换 $X(z)$ 的根(零点) $(Z_1, Z_2, …Z_{N - 1})$ 的集合:
[X(z) = \sum_{n = 0}^{N - 1} x(n)z^{-n} = x(0)z^{-N + 1} \prod_{m = 1}^{N - 1} (z - Z_m)]
单位圆外的零点用于计算声门源开放阶段的频谱(反因果分量),而单位圆内的零点给出由源返回相位频谱调制的声道传递函数(因果分量)。为了实现良好的分解,加窗的效果起着关键作用,以 GCI 为中心、长度为两倍基音周期的布莱克曼窗是合适的选择。
线性调频分解
线性调频 Z 变换(CZT)允许在 Z 平面的螺旋轮廓上评估 Z 变换。最初用于分离过于接近的共振峰,如今在信号处理的多个领域都有应用。
由于 ZZT 分解强烈依赖于加窗,窗口形状和起始位置可能导致零点拓扑不利于准确的脉冲估计。为了解决这个问题,我们在半径为 $R$ 的圆上评估 CZT,使根分布分成两个良好分离的组。
当分析与 GCI 同步时,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



