语音处理中的基音模型与分析合成方法
1. 基音模型概述
语音参数化的源 - 滤波器模型,通过不同处理模块模拟人类发声系统的效果。其中,线性预测倒谱系数(LPC)/线性预测谱对(LSP)用于模拟声道,随机噪声等用于模拟肺部激励,而基音滤波器用于重现声门的作用。
对人类基音产生系统的测量发现,声门的动作并非平滑的,不会产生纯正弦波音调。实际上,基音波形由一系列尖锐的脉冲组成。图 5.14 展示了包含多个基音脉冲的波形,其中一个脉冲被圈出,脉冲之间的间隔决定了感知到的基音频率。
在语音参数编码或压缩时,有几个与基音相关的重要信息项,不同的语音压缩算法对其处理方式不同:
- 脉冲的实际形状
- 正负尖峰的相对高度和位置
- 最大尖峰的幅度
- 脉冲之间的间隔
高质量的压缩算法会考虑所有方面,而一些算法只编码后三项,码激励线性预测(CELP)编码器倾向于编码后两项,规则脉冲激励(RPE)系统则只编码最后一项。显然,编码更多信息需要更多比特,因此许多算法优先考虑对可懂度最重要的方面。
2. 规则脉冲激励(RPE)
RPE 是一种用于表示语音基音成分的参数编码器,在欧洲电信标准协会(ETSI)标准 06.10 中得到了著名的应用。由于它在全球移动通信系统(GSM)标准中的使用,目前是世界上超过三分之一人口的主要移动语音通信方法。GSM 标准于 20 世纪 80 年代作为泛欧洲数字语音标准开发,并得到了欧盟的认可,迅速在欧洲及其他地区得到应用。
GSM 将 160 个 13 位语音样本(采样率为 8kHz)的帧编码为 260 个压缩比特,解码器则根据这些比特重建 160 个
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



