语音编解码技术演进和应用选型

本文由网易云音乐音视频实验室负责人刘华平分享,讲述了语音编解码技术的历史演变和实际应用中的选型考虑。从语言/音频编码总表、数字语言基本要素、压缩需求、编码器设计因素等方面展开,详细介绍了LPC、G.729、AAC等经典编码模型,并探讨了AAC协议族、AAC-ELD家族、Opus和USAC等现代编码技术。重点强调了编码器的压缩效果、算法复杂度、延时和兼容性等关键因素。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

640?wx_fmt=jpeg


本文来自现网易云音乐音视频实验室负责人刘华平在LiveVideoStackCon 2017大会上的分享,并由LiveVideoStack整理而成。分享中刘华平以时间为主线,讲述了语音编解码技术的演进路线及实际应用中的技术选型。


文 / 刘华平

整理 / LiveVideoStack


大家好,我是刘华平,从毕业到现在我一直在从事音视频领域相关工作,也有一些自己的创业项目,曾为早期Google Android SDK多媒体架构的构建作出贡献。


就音频而言,无论是算法多样性,Codec种类还是音频编解码复杂程度都远远比视频要高。视频的Codec目前还主要是以宏块为处理单元,预测加变换的混合编码框架,例如H.264和H.265都是在这一框架下,另外在应用中,某一时间往往单的视频编码能主导,当前H.264就占据了90%以上的市场份额。,而音频则相当复杂,且不同的场景必须要选择不同的音频编解码器。以下就是本次为大家分享的主要内容,希望通过此次分享可以使大家对音频编解码有一个整体的认识,并在实际应用中有参考的依据。


640?wx_fmt=png


1. 语言/音频编码总表


640?wx_fmt=png


上图展示的是语言/音频编码总表,可以看到其比视频编码要复杂得多,单纯的算法也远远比视频要更加复杂。


2. 数字语言基本要素


640?wx_fmt=png


数字声音具有三个要素:采样率、通道数、量化位数。


3. 为什么要压缩


640?wx_fmt=png


压缩音频,主要是为了在降低带宽负担的同时为视频腾出更多带宽空间。


4. 编码器考虑因素


640?wx_fmt=png


通过一些特定的压缩算法,可以压缩音频文件至原来的1/10,同时人耳也无法分辨压缩前后的声音质量差异,需要满足多种条件才能实现这种效果;而对于编码器,无论是设计阶段还是使用阶段,我们都需要考虑最佳压缩效果、算法的复杂度与算法的延时,结合特殊场景进行特定的设计;而兼容性也是我们不能不考虑的重点。


4.1 语音经典编码模型——发音模型


640?wx_fmt=png


我们的很多编解码器都是基于综合人的发音模型与一些和听觉相关的理论支持研究提出的特定编解码算法。初期我们通过研究人的发音原理来设计音频编解码的算法,包括端到端的滤波或轻浊音等,只有充分理解人的发声原理我们才能在编解码端做出有价值的优化。


1)LPC


640?wx_fmt=png

640?wx_fmt=png

LPC作为经典语音编码模式,其本质是一个线性预测的过程。早期的G.7系列编码模型便是通过此模型对整个语音进行编码,上图展示的过程可与之前的人发声过程进行匹配,每个环节都有一个相应的模块用来支撑人发声的过程。其中使用了AR数学模型进行线性预测,此算法也是现在很多语音编码的重要组成模块。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值