语音处理与轴承故障诊断中的信号处理技术
1. 语音处理中基于数学形态学的音高跟踪优化
音高在语音处理应用中是一个非常重要的参数,如语音分析、编码、识别或说话人验证等。同时,音高跟踪对于口语对话中情感的自动识别也具有重要意义。不同的情感状态与不同的音高相关,例如,激动的情绪(如恐惧和兴奋)与相对较高的音高相关,而放松的情绪(如厌烦和悲伤)与相对较低的音高相关。
音高检测技术在研究或建模单个准周期声源时具有重要意义。音高检测算法可以分为时域、频域或两者结合的方法。时域方法包括检测时域特征、使用自相关函数或范数差来检测波形与其延迟版本之间的相似性;频域方法则用于定位峰值;还有一些方法结合了时域和频域技术来检测音高。然而,准确而稳健的音高检测和跟踪仍然是一个难题,因为大多数方法基于语音信号在短时间内是平稳的假设,但实际上语音信号是非平稳且准周期的。
为了提高音高跟踪的性能,本文使用了基于数学形态学的非线性预处理滤波器对语音信号进行处理。数学形态学由J.Serra和G. Matheron在1966年提出,在70年代中期形成理论,并在80年代初成熟。它基于两个基本运算符:膨胀和腐蚀。这两个操作通过结构元素来实现,结构元素可以是不同形状的集合,如圆形、方形或线条。不同的结构元素会产生不同的结果,因此选择合适的结构元素至关重要。
在语音处理中,我们处理的是灰度信号。在这种情况下,二进制形态学中的加法和减法操作被上确界和下确界操作所取代,在数字信号处理框架中,上确界和下确界可以用最大值和最小值操作来替换。
腐蚀定义为:
[
(\varepsilon_Y f)(x) = \min_{s \in Y} f(x + s)
]
超级会员免费看
订阅专栏 解锁全文
1935

被折叠的 条评论
为什么被折叠?



