本文仅在优快云发布,其他均为盗版。请支持正版!
正版链接
https://blog.youkuaiyun.com/meenr/article/details/117629793
基于MATLAB的语音信号LPC分析
实验3 基于MATLAB的语音信号LPC分析
目录
1. 实验目的及要求
本实验要求:按所学相关语音处理的知识,通过网上学习、资料查阅,设计程序,给出某一语音信号的LPC分析结果,包括LPC谱、LPCC谱的分析结果,并借助LPC分析方法检测所分析语音信号的基音周期和共振峰,写出实验报告(按一般科学论文的写作规范)。
2. 实验原理
2.1 LP分析基本原理
LP分析为线性时不变因果稳定系统V(z)建立一个全极点模型,并利用均方误差准则,对已知的语音信号s(n)进行模型参数估计。
如果利用P个取样值来进行预测,则称为P阶线性预测。假设用过去P个取样值
的加权之和来预测信号当前取样值
,则预测信号
为:
公式2.1
其中加权系数用[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pHWPXbD4-1622967454277)(数字语音实验3.files/image012.png)]表示,称为预测系数,则预测误差为:
公式2.2
要使预测最佳,则要使短时平均预测误差最小有:
(2.3)
(2.4)
令
(2.5)
最小的
可表示成:
(2.6)
显然,误差越接近于零,线性预测的准确度在均方误差最小的意义上为最佳,由此可以计算出预测系数。
2.2 自相关法
在最佳线性预测中,若用下式定义的时间平均最小均方准则代替(3)式的集合平均最小均方准则,即令
(2.7)
事实上就是短时自相关函数,因而
(2.8)
(2.9)
根据平稳随机信号的自相关性质,可得
(2.10)
由(6)式,可得:
(2.11)
综上所述,可以得到如下矩阵形式:
(2.12)
值得注意的是,自相关法在计算预测误差时,数据段
的两端都需要加P个零取样值,因而可造成谱估计失真。特别是在短数据段的情况下,这一现实更为严重。另外,当预测系数量化时,有可能造成实际系统的不稳定。
自相关解法主要有杜宾算法、格型算法和舒尔算法等几种高效递推算法。
2.3 协方差法
如果在最佳线性预测中,用下式定义的时间平均最小均方准则代替(2.3)式的集合平均最小均方准则,则可得到类似的方程:
(2.13)
可以看出,这里的数据段两端不需要添加零取样值。在理论上,协方差法计算出来的预测系数有可能造成预测误差滤波器的不稳定,但在实际上当每帧信号取样足够多时,其计算结果将与自相关法的结果很接近,因而稳定性一般是能够保证的 (当然这种方法也有量化效应可能引起不稳定的缺点)。
协方差解法的最大优点在于不存在自相关法中两端出现很大预测误差的情况,在N和P相差不大时,其参数估值比自相关法要精确的多。但是在语音信号处理时,往往取N在200左右。此时,自相关法具有较大误差的段落在整个语音段中所占的比例很小,参数估值也是比较准确的。在这种情况下,协方差法误差较小的优点就不再突出,其缺乏高效递推算法的缺点成为了制约因素。所以,在语音信号处理中往往使用高效的自相关法。
2.4 全极点声道模型
将线性预测分析应用于语音信号处理,不仅是为了利用其预测功能,更因为它提供了一个非常好的声道模型。
将式(2.2)所示的方程看成是滤波器在语音信号激励下的输入输出方程,则该滤波器称为预测误差滤波器,其e(n)是输出误差。变换到z域,P阶预测误差滤波器的系统函数为:
(2.14)
可以看出,如果将预测误差e(n)作为激励信号,使其通过预测误差滤波器的逆滤波器H(Z),即:
(2.15)
则H(Z)的输出为语音信号s(n),也就是说,H(Z)在预测误差e(n)的激励下可以合成语音。因此,H(Z)被称为语音信号的全极点模型,也称为语音合成器。该模型的参数就是P阶线性预测的预测系数
。
2.5 LPCC
如果声道特性H(Z)用式(2.14)所示的全极点模型表示,有
(2.16)
式中,S(z)和I(z)分别为语音信号
和激励源
的Z变换。对人的听觉来说,浊音是最重要的语音信号。对于浊音,模型的激励信号源e(n)是以基音周期重复的单位脉冲,此时有[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
。可得
的Z变换S(z)为
(2.17)
式中,
为P阶线性预测系数。根据倒谱的定义,对具有最小相位特征的语音信号
,有
(2.18)
式中,
为语音信号的倒谱。将式(16)代入式(17),并对两边
求导,得
(2.19)
根据上式即可由线性预测系数通过递推得到倒谱系数,将这样得到的倒谱称为线性预测倒谱系数。
2.6 模型增益G
模型的激励信号
表示为:
(2.20)
预测误差e(n)如式(2.2),这样当实际的预测系数与模型系数相等时,有
(2.21)
这说明激励信号正比于误差信号,其比例常数等于模型增益G。通常假设误差信号的能量等于输入激励信号的能量,因此可以得到:
(2.22)
对于式中的激励信号
,
主要分为浊音和清音两种情况。其中为浊音时,考虑到此时实际的激励信号为声门脉冲,因此可以将激励信号表示为
时的单位抽样。为了保证这个假设成立,要求分析的区间应该大致和语音基因周期的长度相等。当语音为清音时,我们假定激励信号
为一个零均值、单位方差的平稳白噪声过程。
采用自相关解法时,浊音的模型增益为
(2.23)
清音计算模型增益的公式和浊音相同。
3. 实验结果与分析
3.1 线性预测与误差
输入想要处理的帧位置,输入预测器阶数,按下回车键。
图3.1 线性分析与误差
总结分析:
本实验先对模拟信号进行采样处理,取采样后数字信号的第35帧与长度为320的海明窗卷积,然后对信号进行短时傅里叶变换,利用LPC函数对变换后的信号进行线性预测分析,滤波器阶数为8阶,得到滤波器系数与增益。通过LPC分析,由若干帧语音可以得到若干组LPC参数,每组参数形成一个描绘该帧语音特征的矢量,即LPC特征矢量。由LPC特征矢量可以进一步得到很多种派生特征矢量,例如线性预测倒谱系数、线谱对特征、部分相关系数、对数面积比等等。
3.2 短时谱与LPC谱
图3.2 短时谱与LPC谱
总结分析:
LPC谱越能反映出语音短时谱的细节部分,但LPC谱的光滑度随之下降。目的只是用LPC谱反映声道综合效应的谱的表示式,而具体的谐波形状是通过激励谱来控制的,因此LPC谱只要能够体现出语音的共振峰的结构和谱包络就可以。
3.3 原始语音谱与预测误差倒谱
图3.3 原始语音倒谱与预测误差倒谱
4. 总结分析
图3.3是原始语音和预测误差的倒谱波形,我们可以从中计算出原始语音的基音周期。从图中看出两峰值之间的间隔为30点左右,基音周期为30/11025=2.7ms,频率为367Hz左右。
实验代码
感兴趣的或者需要本文实验代码和实验报告的读者可参考下面两种方式获得。
途径1
优先推荐该途径
第一步:扫描下方二维码,或打开微信搜索并关注“ 2贰进制 ”公众号;
第二步:回复相应的内容可获取本文相关资料。
途径2
扫描下方二维码,加入学习交流QQ群“ 480558240 ”,联系管理员咨询,获取包括但不限于本篇内容的更多学习资料。
2贰进制–Echo 2020年10月
我认同兴趣是最好的老师,赠人玫瑰手留余香,所以如果您觉得本文还不错,请点赞+评论+收藏,要是关注那更是我莫大的荣幸!
如果本文对你有所帮助,解决了您的困扰,您可以通过赞赏来给予我更大支持:
此致
感谢您的阅读、点赞、评论、收藏与打赏。