多音高估计与语音信号参数化技术详解
在语音处理领域,多音高估计和语音信号参数化是两个重要的研究方向。多音高估计有助于从混合语音信号中分离出不同说话者的音高信息,而语音信号参数化则能为语音识别等应用提供有效的特征表示。下面我们将详细介绍相关的技术和方法。
多音高估计方法
多音高估计的核心是基于语音多尺度乘积(MP)的自相关(AMP)。该方法通过迭代操作来估计多个基频,具体步骤如下:
1. 检测主导说话者的 F0 :首先确定主导说话者的基频。
2. 消除主导说话者的贡献 :使用梳状滤波器合成信号从原始信号中减去,以消除主导说话者的影响。梳状滤波器的参数由第一次估计得到的 F0 确定。
多尺度乘积(MP)
多尺度乘积是一种非线性信号处理技术,基于小波系数在某些尺度上的乘积。对于谐波信号,它可以过滤信号、减少一些结构,同时突出简单的周期性结构。信号 f 在尺度 sj 上的 MP 由以下方程描述:
[p(n)=\prod_{j = 1}^{l}W_f(n, s_j)]
其中,(W_f(n, s_j)) 表示 f(n) 在尺度 (s_j) 上的小波变换。这里使用的小波是二次样条函数,支持时间为 0.8 ms,尺度为 2、2.5 和 3。
语音 MP 的自相关(AMP)
自相关是衡量两个波形之间相似性的一种方法,它可以检测信号中的规律性、重复模式或基频。在本方法中,将乘积 (p[n]) 与滑动分析的 Blackman 窗口 (w[n]) 相乘,将其划分为长度为 N 的帧:
[P_{wi}[n]=p[n]
超级会员免费看
订阅专栏 解锁全文
86

被折叠的 条评论
为什么被折叠?



