音频基础知识

最新推荐文章于 2025-08-11 21:15:57 发布

原创最新推荐文章于 2025-08-11 21:15:57 发布 · 243 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#音视频

音视频专栏收录该内容

3 篇文章

订阅专栏

因为工作的需求，需要对音视频进行一些深刻的了解。没办法，只能从头开始一一学习。

声波的三要素：

1.频率

2.振幅

3.波形

如果是模拟信号声波，因为它是能量波，在传输过程中，它会因为环境，距离的影响而导致能量的衰减，出现声音的变质，甚至失真。但是如果先转成数字01，就不会出现衰减现象。而且这个便于计算机识别和处理，利于音频数据的存储和播放而无损失。

数字音频：分别包括了采样，量化和编码

采样：在时间轴上对信号进行数据化。根据奈奎斯特定理（采样定理），按比声音最高频率高2倍以上的频率对声音进行采样（AD转换），采样频率一般为44.1kHz。即1秒会采样44100次

量化：在声音幅度轴上对信号进行数字化，例如使用16比特的二进制信号来表示声音的一个采样，而16比特（short）所表示的范围是[-32768，32768]，共有65536个可能取值，因此最终模拟的音频信号在幅度上也分为65535层

编码：按照一定格式记录采样和量化后的数字数据，比如顺序存储或者压缩存储。。。最常见的音频裸数据格式就是脉冲编码调制(PCM)数据。描述一段PCM数据一般需要以下几个概念：量化格式（sampleFormat）、采样率（sampleRate）、声道（channel）。它的大小描述：数据比特率，即1秒时间内的比特数目，它用于衡量音频数据单位时间内的容量大小。以CD音质为例：量化格式为16比特，采样率为44100，声道数为2，她的比特率为：16*44100*2/1024=1378.125kbps。一分钟它所需占用的存储空间为：1378.125*60/8/1024=10.09MB。

在一分钟的时间里，它就需要10兆多的空间，如果放在硬盘存储还好，如果是用于数据实时传送，那么这个数据量就太大了。所以需要对它进行编码进行格式压缩，减小数据容量。数据压缩包括无损压缩和有损压缩。⽆损压缩是指解压后的数据可以完全复原。在常⽤的压缩格式中，⽤得较多的是有损压缩，有损压缩是指解压后的数据不能完全复原，会丢失⼀部分信息，压缩⽐越⼩，丢失的信息就越多，信号还原后的失真就会越⼤。压缩编码算法主要包括：PCM、WAV、AAC、MP3、Ogg。