语音编码原理

语音编码最基本的方法是对语音信号采样,直接进行模数转换。但是,如果不再进一步处理,会导致编码量很大。例如,用8kHz采样,12bit进行量化,一秒钟的语音就需要96kb。这个传输量太大,需要进行压缩。

为什么可以进行压缩?因为数据(每一次采样)存在相关性。假设所有数据都相同,用两个数就可以表示这段语音,一个是每个采样的值,一个是采样的次数;假设数据构成了一条直线,即数据和时间成正比,用3个数就可以表示,起始点,长度,斜率(或者差分)。等等,只要语音信号不是随机出现的,就可以进行压缩(严格说,随机出现的也可以压缩,只要知道了分布函数)。

语音信号在时频的冗余:

1,语音的幅度非均匀,大量的低信号电平,对人的听觉影响甚微

2,相邻语音信号的相关性很强。比如当前信号为1,则左右两个的信号集中在0.8和1.2之间。根据当前信号可以很好预测下一个信号而不需要存储下一个信号。

3,浊音有很强的周期性。本周期语音段的波形和下一个周期语音段的波形非常相近,只需要存储本周期语音段即可。

4,语音间隙。很多时候是一方在说,另一方在听,检测出不发音的一方,可以不传递信号。

语音信号在频域的冗余:

1,非均匀的功率谱密度,高频的功率很低,这对应于时域里相邻信号变化很小。

2,语音信号特有的短时功率谱密度,某些频率上出现峰值,某些功率上出现谷值。

人的听觉特征:

1,人耳的掩蔽效应。声音是由不同频率的声波组成,如果某一个频率的声波很强,人耳就很难听到相邻频度的声音。

2,人耳对不同频率的声音敏感度不同。对一些频段,即使强度很大,人耳仍然听不到,而对于另外一些频段,即便微小的声音,人耳也可以感应到。

3,人耳对语音相位变化不敏感。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值