用于音高估计的谐波增强技术解析
1. 谐波增强与语音增强的区别
语音增强通常致力于保持语音的整体特性不变,而谐波增强则专注于改善语音的谐波结构,且不允许改变音高。语音增强常作为许多语音相关应用的预处理步骤,增强后的语音可被重复使用;但这里的谐波增强仅用于音高检测,增强后的谐波结构不会用于其他方面。由此可见,谐波增强是一个独特的研究方向,相关方法可能并不适用于语音增强。
2. 理论分析
在时域分析中,假设语音帧是严格周期性的。经过分帧后,浊音语音的每一帧都可以通过傅里叶变换进行分析。由于在理想条件下语音帧是周期性的,因此可以使用傅里叶级数将帧信号分解为多个正弦和余弦波的叠加。在傅里叶级数的复数形式中,语音可以用以下方程表示:
[f(t) = \sum_{n = -1}^{\infty} c_n e^{j2\pi n f_0 t}]
其中,(f(t)) 是帧信号,(f_0) 是基频,系数 (c_n) 通常是复数,称为傅里叶系数,(j) 表示虚数单位。
为了简化分析,假设语音仅由两个谐波组成,信号可以写成:
[f_1(t) = c_m e^{j2\pi m f_0 t} + c_k e^{j2\pi k f_0 t}, k \in Z, m \in Z]
其中,(e^{j2\pi m f_0 t}) 表示第 (m) 个谐波。根据指数函数的性质,有:
[ (c_m e^{j2\pi m f_0 t}) \cdot (c_k e^{j2\pi k f_0 t}) = c_m c_k e^{j2\pi (m + k) f_0 t} ]
这表明通过两个现有谐波的相乘可以再生新的谐波,即可以通过适当的操作再生一些
超级会员免费看
订阅专栏 解锁全文
40

被折叠的 条评论
为什么被折叠?



