视频编码原理简介-优快云博客

要彻底理解视频编码原理，看书都是虚的，需要实际动手，实现一个简单的视频编码器：

知识准备：基本图像处理知识，信号的时域和频域问题，熟练掌握傅立叶正反变换，一维、二维傅立叶变换，以及其变种，dct变换，快速dct变换。

第一步：实现有损图像压缩和解压

参考 JPEG原理，将 RGB->YUV，然后 Y/U/V 看成三张不同的图片，将其中一张图片分为 8×8的 block进行 dct变换（可以直接进行二维 dct变换，或者按一定顺序将 8×8的二维数组整理成一个64字节的一维数组），还是得到一个 8×8的整数频率数据。于是表示图像大轮廓的低频信号（人眼敏感的信号）集中在 8×8的左上角；表示图像细节的高频信号集中在右下角。

接着将其量化，所谓量化，就是信号采样的步长，8×8的整数频率数据块，每个数据都要除以对应位置的步长，左上角相对重要的低频信号步长是 1，也就是说 0-255，是多少就是多少。而右下角是不太重要的高频信号，比如步长取 10，那么这些位置的数据都要 /10，实际解码的时候再将他们 x10恢复出来，这样经过编码的时候 /10 和解码的时候 x10，那么步长为 10的信号1, 13, 25, 37就会变成规矩的：0, 10, 20, 30, 对小于步长 10的部分我们直接丢弃了，因为高频不太重要。

经过量化以后，8×8 的数据块左上角的数据由于步长小，都是比较离散的，而靠近右下角的高频数据，都比较统一，或者是一串0，因此图像大量的细节被我们丢弃了，这时候，我们用无损压缩方式，比如 lzma2算法（jpeg是 rle + huffman）将这 64个 byte压缩起来，由于后面高频数据步长大，做了除法以后，这些值都比较小，而且比较靠近，甚至右下部分都是一串0，十分便于压缩。

JPEG 图像有个问题就是低码率时 block边界比较严重，现代图片压缩技术往往要配合一些 de-block算法，比如最简单的就是边界部分几个像素点和周围插值模糊一下。

做到这里我们实现了一个同 jpeg类似的静态图片有损压缩算法。在视频里面用来保存I帧数据。

第二步：实现宏块误差计算

视频由连续的若干图像帧组成，分为 I帧，P帧，所谓I帧，就是不依赖就可以独立解码的视频图像帧，而 P帧则需要依赖前面已解码的视频帧，配合一定数据才能生成出来。所以视频中 I帧往往都比较大，而P帧比较小，如果播放器一开始收到了 P帧那么是无法播放的，只有收到下一个I帧才能开始播放。I帧多了视频就变大，I帧少了，数据量是小了，但视频受到丢包或者数据错误的影响却又会更严重。

那么所谓运动预测编码，其实就是 P帧的生成过程：继续将图片分成 16×16的 block（为了简单只讨论 yuv的 y分量压缩）。I 帧内部单帧图片压缩我们采用了 8×8的 block，而这里用 16×16的 block来提高帧间编码压缩率（当然也会有更多细节损失），我们用 x, y表示像素点坐标，而 s,t 表示 block坐标，那么坐标为（x, y）的像素点所属的 block坐标为：

s = x / 16 = x >> 4 
t = y / 16 = y >> 4

接着要计算两个 block的相似度，即矢量的距离，可以表示为一个 256维矢量（16×16）像素点色彩距离的平方，我们先定义两个颜色的误差为：

PixelDiff(c1, c2) = (c1- c2) ^ 2

那么 256个点的误差可以表示为所有对应点的像素误差和：

BlockDiff(b1, b2) = sum( PixelDiff(c1, c2) for c1 in b1 for c2 in b2)

代码化为：

int block_diff(const unsigned char b1[16][16], const unsign