音视频编程基本概念梳理

最新推荐文章于 2024-12-13 15:37:40 发布

光鱼

最新推荐文章于 2024-12-13 15:37:40 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏：音视频文章标签：音视频 ffmpeg

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/lightfish_zhang/article/details/86767793

本文概述了音视频编程的核心概念，包括音频的数字化过程（采样、量化、编码）、声学物理知识及人耳生物特性，以及视频的RGB和YUV表示方式。介绍了音频的MP3、AAC、Ogg格式和视频的I帧、P帧、B帧，以及编码压缩技术如运动补偿。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文梳理了音视频编程开发者需要了解的基本概念
访问我的博客了解更多

前言

本文梳理了音视频编程开发者需要了解的基本概念，当然，有的人一开始看着干巴巴的理论，感到困乏，却是一个喜欢动手实践的开发者，那么先实践 ffmpeg的C语言编程入门，然后再来看理论篇更好了。

音频的基本概念

音频技术是为了采样、存储、播放"声学现象"而存在的，详细一点，是模拟信号与数字信号转换；在人耳可听的时域与频域的范围内，进行压缩、转码，在数据大小与音质的取舍中存储音频文件；播放时解读文件的音频参数，进行转码。

声学的物理知识

声音是有物体振动而产生的，是一种压力波。

声音的振动会引起空气有节奏的振动，是周围的空气发生疏密变化，形成疏密相间的纵波

通过上一句话，容易理解声波三要素：

频率，音阶的高低，频率越高，波长越短，而低频声音的波长较长，更容易绕过阻碍物。
振幅，响度，使用分贝描述响度的大小，
波形，音色

人耳的生物知识

回声的区分：两道声音传入人耳的时差小于 80 毫秒，人耳便无法区分这两道声音。

人耳可接收的频率范围：20Hz~20kHz

声音的数字化

数字音频的三个要素：采样、量化、编码

采样，在时间轴上对信号进行数字化，根据采样定理（奈奎斯特定理），按比声音最高频率高两倍以上的频率对声音进行采样（AD转换），根据人耳可听频率，高质量的采样频率为 44.1kHz，即一秒采样44100次
量化，在幅度轴上对信号进行数字化，例如使用 short (16 bit) 存储空间表示一个声音采样，共有 2^16 个可能取值，于是模拟的音频信号在幅度上分为了 65536 层
编码，按照一定的格式记录采样和量化后的数字数据，比如顺序存储，压缩存储等

音频文件的原始格式，PCM, WAV

PCM + WAV header (44 bit) = WAV

PCM 全称 Pul

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。