语音信号参数化与线性预测技术详解
1. 语音信号参数化概述
语音信号的参数化是将语音信号分解为不同组成部分的过程,这与人类语音产生系统有一定关联。后续将介绍多种语音编码技术,这些技术都与语音信号的参数化相关。
2. 线性预测
线性预测在语音通信技术中占据重要地位,至少从1971年起就被应用于语音编码。它基于人类肌肉系统产生语音的特性,由于肌肉运动速度有限,语音在约30ms内具有准平稳性。
在实际中,声门产生基音尖峰的时间通常短于30ms,因此需要先去除语音信号中的基音,得到能量较低的残差信号。准平稳性意味着以8kHz采样率采集的240个样本(对应30ms时长)可以用较少的一组值进行参数化,通常是8或10个线性预测系数。
线性预测系数是数字滤波器的生成多项式,当受到输入信号激励时,能重现原始样本的特征,虽然在时域上可能不完全相同,但频率响应与原始信号匹配。
线性预测编码(LPC)曾单独用于语音编码,如1975年开发的美国联邦标准1015 2.4 kbits/s算法,但音质较差,主要用于军事通信。在现代编码算法中,LPC通常会结合其他技术进行优化。
2.1 LPC滤波器
假设我们有描述约30ms语音残差向量发声特性的LPC系数,这些系数可用于两种滤波器:
- 合成滤波器 :将发声特性添加到样本向量中。
- 分析滤波器 :去除发声特性。
对于一个P阶线性预测滤波器,由P个系数a[0], a[1] … a[P - 1]表示,LPC合成滤波器是一个全极点无限脉冲响应(I
超级会员免费看
订阅专栏 解锁全文
73

被折叠的 条评论
为什么被折叠?



