FFmpeg 之I、B、P帧的基本编码原理(三)

阿里P7移动互联网架构师进阶视频(每日更新中)免费学习请点击:https://space.bilibili.com/474380680

1、I帧的基本编码原理

上篇说过,MPEG-1主要在时间冗余和空间冗余两个方向上,去除冗余数据。时间冗余是帧与帧之间产生的冗余数据,而空间冗余则是单帧图像中,相邻像素间产生的冗余数据。对于I帧来说,因为它是关键帧,既不需要参考过去的帧,也不需要参考将来的帧。所以对I帧的编码,是为了消除空间冗余数据,而且它采用的压缩算法,和JPEG类似。如下图:

19956127-1d7961a60dae9221
I帧的压缩编码算法

从图中可以看到,如果图像是用RGB颜色空间表示的,则首先把它转换成用YCbCr空间表示的图像。然后每个图像平面分成8x8像素的图块,并对每个图块进行离散余弦变换(DCT)。

这里DCT的作用非常大,看它的名字可能会觉得非常高大上,其实它就是一个矩阵变换。关于它其实都可以专门写一篇文章出来,不过这里我们只需要知道它的作用即可。DCT简单点来说,它就是将前面8x8像素图块的颜色空间数据,分为高频数据和低频数据,所以我们也常说,DCT是把数据从空间域转换到频率域。

那什么是高频和低频呢?这里的高频数据是指,图像颜色的变化比较强烈的地方,比如人像画的轮廓与背景的交叉处,在这里的色值变化很快,所以称为高频。相对的低频就是指,颜色变化比较缓和的地方。所以DCT的作用并不是对数据进行压缩,而是为了方便后面的操作,比如量化、RLE行程编码、以及霍夫曼编码。

下一步就是量化,因为人眼对高频区域其实并不敏感,所以利用这一点,可以将高频部分数据进行压缩。这样一来,图块的数据就会呈现两部分,一部分是变化平滑的低频数据,另一部分是刚压缩过的高频部分,数值也变得差不多。而后再经过Zig-zig编排,数据就会呈现出连续几个值相同的的形式,比如23334551550000。这样一来,再经过RLE行程编码,就可以去掉连续值相同的冗余数据。

因为RLE在编码时,对相同的数值只编码一次,同时计算相同数值重复的次数,因此称为行程编码。而与RLE处于同级的DPCM,则主要是对图块与图块之间的差值进行编码。这样一来可以再次压缩数据,之后再通过霍夫曼编码或者算术编码,编码操作也就完成了。同样霍夫曼编码和算术编码,也可以单独写一篇文章出来。

2、P帧的基本编码原理

P帧也就是预测图像P,与I帧不同的是,它不仅要从空间上去除冗余数据,还要从时间冗余方面上着手,因为它是以在它之前出现的I帧作为参考对象来编码的。与I帧不同的是,预测图像P的编码是以16x16像素的宏块为基本编码单元的。对于P帧,为了表示它与前面I帧的关系,我们会一直用预测图像和参考图像这两个词。

其实很好想象,因为对预测图像编码,就是对它和参考图像直接的差值进行编码。所以我们只需要做到以下两点即可:

  • 1、算出当前要编码的图像宏块,与参考图像宏块之间的差值
  • 2、计算出宏块的移动矢量

比如下图:


19956127-e49542061efa8ea5

这张图应该一目了然,时刻1中的人像,在时刻2移动到了图像右侧。这个过程中变化的,不只是人像的位置,因为人在移动的时候,会有其他的动作,比如低头、转头、仰头等动作。所以我们并不仅仅要计算出人像变化之后的位置,也就是移动矢量,还要计算出两个宏块之间的差值。

当然这两者在编码过程中,是有个先后关系的。比如我要计算出宏块的移动矢量,那我得找到参考图像中的宏块,在预测图像中的位置吧。而更进一步,那我怎么找到预测图像相对于参考图像中,图块的位置呢?答案是预测图像中的某个宏块,与参考图像中的这个宏块的差值最小,也即最佳匹配宏块。

这就引起了一系列的搜索算法,去预测图像中去找这个宏块,比如二维对数搜索法、三步搜索法、对偶搜索法。而对预测图像P的编码所引起的时间,则主要是执行这个搜索算法所占用的时间。

等找到最佳匹配宏块后,计算出差值和移动矢量,剩下的操作就和对I帧的编码一致了。

19956127-9dfa96238d3af0ba
预测图像P的压缩编码算法

3、B帧的基本编码原理

B帧也是双向预测图像B,对它的编码,即是对它前后帧的像素值之差进行编码,具体的方法和对预测图像P的算法类似。

19956127-aad24a39335e6bd0
双向预测图像B的压缩编码算法

总结

从以上介绍就可以看出,I帧是对视频最重要的图像帧,P帧其次,B帧更次。所以B帧的压缩比也是最高的,P帧其次,I帧压缩比最小。在实际应用中,对于快速运动的图像,I帧的频率可以高一些,B帧的数目可以少一些。而对于慢速运动的图像,则相反。
原文链接 https://mp.weixin.qq.com/s/1OFltrFDPr1B_QtRLWFjQA
阿里P7移动互联网架构师进阶视频(每日更新中)免费学习请点击:https://space.bilibili.com/474380680

### FFmpeg 中音视频编解码 I 和 P 的工作原理 #### I (Intra Frame) I 是一种独立完整的图像,不依赖其他任何进行重建。这意味着每一个 I 都可以单独解码并显示出来。这种特性使得 I 成为随机访问的关键点,在媒体播放或视频编辑过程中非常重要。 对于 H.264 编码而言,I 不仅包含了当前时刻的画面信息,还可能携带了一些额外的数据用于初始化后续的预测过程[^3]。 ```bash ffmpeg -i input.mp4 -vf "select=eq(pict_type\,I)" -vsync vfr output_frames_%03d.png ``` 上述命令可以用来提取输入文件中的所有 I ,并将其保存为一系列 PNG 图像文件。 #### P (Predicted Frame) P 通过向前参考之前的某个已知(通常是最近的一个 I 或者 P )来进行运动补偿预测,从而减少冗余信息量。因此,要正确地解码一个 P ,必须先获得它所参照的那个前向的内容。由于只需要单方向上的参考关系,所以处理起来相对简单一些。 当存在 B 时,P 的时间戳属性会表现出特定的行为模式:其呈现时间戳(PTS)大于解码时间戳(DTS)。 #### 使用 FFmpeg 进行操作 为了更好地理解和管理这些不同类型的,可以通过 FFmpeg 提供的各种选项来查看或修改它们: - **获取类型统计**: 要分析一段视频里各类型的数量分布情况,可执行如下指令: ```bash ffmpeg -i video.mp4 -an -vf showinfo -f null - ``` 此命令会在控制台输出每一的信息,其中包括了该所属的具体类别(I/P/B)。 - **强制设置关键间隔** 如果希望调整输出视频中 I 出现频率的话,则可以在编码阶段指定 `g` 参数值作为 GOP 大小,也就是两个相邻 I 之间的最大距离: ```bash ffmpeg -i source.avi -c:v libx264 -g 60 destination.mp4 ``` 上述例子设定了每隔 60 个就会插入一个新的 I
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值