[Linux Audio Driver] 音频相关概念及参数

最新推荐文章于 2023-01-03 13:40:07 发布

转载最新推荐文章于 2023-01-03 13:40:07 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

原文链接：https://zhuanlan.zhihu.com/p/114378222

本文深入探讨了音频编码的关键概念，包括采样频率、采样深度、比特率和通道数，解析了PCM、WAV、MP3和OGG等常见音频格式的特点与应用。文章还解释了奈奎斯特采样理论，以及不同采样率和比特深度对音质的影响。

0. 采样频率

指每秒钟取得声音样本的次数。声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。

采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，采样频率越高，声音的质量也就越好，声音的还原也就越真实，但同时它占的资源比较多。由于人耳的分辨率很有限，太高的频率并不能分辨出来。22050的采样频率是常用的，44100已是CD音质，超过48000或96000的采样对人耳已经没有意义。

这和电影的每秒24帧图片的道理差不多。如果是双声道(stereo)，采样就是双份的，文件也差不多要大一倍。根据奈奎斯特采样理论，为了保证声音不失真，采样频率应该在40kHz左右。这个定理怎么得来，我们不需要知道，只需知道这个定理告诉我们，如果我们要精确的记录一个信号，我们的采样频率必须大于等于音频信号的最大频率的两倍，记住，是最大频率。

在数字音频领域，常用的采样率有： 8000 Hz - 电话所用采样率，对于人的说话已经足够。
11025 Hz - 电话所用采样率
22050 Hz - 无线电广播所用采样率
32000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率
44100 Hz - 音频 CD, 也常用于 MPEG-1 音频（VCD，SVCD，MP3）所用采样率
47250 Hz - 商用 PCM 录音机所用采样率
48000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
50000 Hz - 商用数字录音机所用采样率
96000 Hz或者 192000 Hz - DVD-Audio、一些 LPCM DVD 音轨、BD-ROM（蓝光盘）音轨、和 HD- DVD （高清晰度 DVD）音轨所用所用采样率

1.采样深度

比特深度决定了文件的动态分辨率，类似数码照片那样。每个“比特”可以传送4个振幅数值（两个正值两个负值），因此每个样本所含的比特越多，也就代表着动态范围越大。这并不意味着，比特深度越高，音量就会越大；但是，更高的比特深度听起来会更加真实，因为它们可以做到更加准确地再现声音（就好比高分辨率的照片）。以下是常见采样率及其统计数据的概述：

4-bit：16个数值，24dB的动态范围。有时也会用于极低保真的“bitcrushed”效果器上。
8-bit：256个数值，48dB的动态范围。经常用于早期的经典的视频游戏系统。
16-bit：65536个数值，96dB的动态范围，CD音频的标准比特深度。
24-bit：16777216个数值，145dB的动态范围，最常用的比特深度。
32或者 64-bit：“浮点”，目前可以做到提供最佳信噪比的数值，但是尚未被广泛采用。

2. 比特率

比特率也叫码率，指音乐每秒播放的数据量，单位用bit表示，也就是二进制位。 bps就是比特率。b就是比特（bit），s就是秒（second），p就是每（per），一个字节相当于8个二进制位。
也就是说128bps的4分钟的歌曲的文件大小是这样计算的(128/8)460=3840kB=3.8MB，1B（Byte）=8b（bit），一般mp3在128比特率左右为益，也大概在3-4 BM左右的大小。

在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的 WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。

要算一个PCM音频流的码率，直接使用采样率值×采样大小值×声道数 bps。一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为 44.1K×16×2 =1411.2Kbps。

3.通道数

由于音频的采集和播放是可以叠加的，因此，可以同时从多个音频源采集声音，并分别输出到不同的扬声器，故声道数一般表示声音录制时的音源数量或回放时相应的扬声器数量。

常见的单声道和立体声（双声道），现在发展到了四声环绕（四声道）和5.1声道等更多声道。

a.单声道(mono)

单声道是比较原始的声音复制形式，早期的声卡采用的比较普遍。单声道的声音只能使用一个扬声器发声，有的也处理成两个扬声器输出同一个声道的声音，当通过两个扬声器回放单声道信息的时候，我们可以明显感觉到声音是从两个音箱中间传递到我们耳朵里的，无法判断声源的具体位置。

b.立体声(stereo)

双声道就是有两个声音通道，其原理是人们听到声音时可以根据左耳和右耳对声音相位差来判断声源的具体位置。声音在录制过程中被分配到两个独立的声道，从而达到了很好的声音定位效果。这种技术在音乐欣赏中显得尤为有用，听众可以清晰地分辨出各种乐器来自的方向，从而使音乐更富想象力，更加接近于临场感受。

4 音频格式及编码

4.1 PCM 编码

PCM编码的最大的优点就是音质好，最大的缺点就是体积大。

4.2 WAV格式

这是一种古老的音频文件格式，由微软开发。WAV是一种文件格式，符合RIFF (Resource Interchange File Format) 规范。所有的WAV都有一个文件头，这个文件头包含了音频流的编码参数。

在Windows平台下，基于PCM编码的WAV是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，WAV也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的WAV被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如MP3转换成WMA。