5、语音处理中的声门源估计与发声类型自动分类

语音处理中的声门源估计与发声类型自动分类

在语音处理领域,声门源估计和发声类型的自动分类是两个重要的研究方向。下面将详细介绍相关的技术方法和实验结果。

声门源估计

声门源估计对于理解语音产生机制和提高语音处理技术的性能至关重要。传统的基于零极点变换(ZZT)的分解技术在声门源估计中具有一定的应用,但存在对声门闭合瞬间(GCI)检测误差敏感的问题。

ZZT 语音分解原理

对于离散信号 $x(n)$ 的一系列 $N$ 个样本 $(x(0), x(1), …x(N - 1))$,ZZT 表示定义为相应 Z 变换 $X(z)$ 的根(零点) $(Z_1, Z_2, …Z_{N - 1})$ 的集合:
[X(z) = \sum_{n = 0}^{N - 1} x(n)z^{-n} = x(0)z^{-N + 1} \prod_{m = 1}^{N - 1} (z - Z_m)]
单位圆外的零点用于计算声门源开放阶段的频谱(反因果分量),而单位圆内的零点给出由源返回相位频谱调制的声道传递函数(因果分量)。为了实现良好的分解,加窗的效果起着关键作用,以 GCI 为中心、长度为两倍基音周期的布莱克曼窗是合适的选择。

线性调频分解

线性调频 Z 变换(CZT)允许在 Z 平面的螺旋轮廓上评估 Z 变换。最初用于分离过于接近的共振峰,如今在信号处理的多个领域都有应用。

由于 ZZT 分解强烈依赖于加窗,窗口形状和起始位置可能导致零点拓扑不利于准确的脉冲估计。为了解决这个问题,我们在半径为 $R$ 的圆上评估 CZT,使根分布分成两个良好分离的组。

当分析与 GCI 同步时,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值