视频解码的常见过程
视频解码的4个过程,通常包括获取文件、分离音视频流、解码、输出。
获取文件
视频流的来源可以是文件,也可以是UDP等数据流,主要是将视频流放入内存缓冲区中。
分离音视频流
正如前述,视频文件只是一个容器。视频数据与音频数据按照一定的标准组合在一起。为了下一步的解码,首先要把视频和音频分离开。
解码工作
分离开的音频和视频,由各自的codec负责进行解码,得到原始数据流。
输出
将得到的原始数据流在窗口里进行渲染,使之变成可以看到的图像。
视频编码的核心过程
下面以现时的MPEG1编码为例,试讲述视频编码的核心过程。通过摄影机、摄像头等得到的图像,首先会进行模数转换,变成数字码流。但是,在时间尺度上和空间范围上,均有大量的冗余信息,得到的比特流会占用大量的空间,不利于储存和播放。因此,就需要对原始视频流进行编码压缩。常见的方法是,对原始视频流进行色彩空间转换。由于人眼对于亮度的敏感大大优于对色度的敏感,转化为YCbCr色彩空间能够缩小体积而视频质量仍保持在较高质素(同时,这也去除了色彩方面的冗余)。接着进行DCT离散余弦变换,由于离散视频变换具有很强的能量集中特性,大多数自然信号(包括声音和图像)都会集中在离散余弦变换后的低频部分。(这意味着系数矩阵的大多数元素均为0)通过量化,就可以进行熵编码。上一步得到的数据往往具有较高的冗余量,对其进行熵编码(如常见的霍夫曼编码)就会有较好的压缩效果。
对于视频来说,往往会进行运动补偿,使用已经编码的帧对当前帧进行预测。最简单的运动编码可以是将当前帧减去参考帧,对剩余部分(只剩下较少能量的残差)进行较低码流的编码。比较常用的是分块运动补偿,通过对宏块的平移预测当前帧。其中,涉及到探测并计算最优平移向量。当然,还有通过向前向后预测来优化的(向前向后是指同时使用前后两个参考帧进行预测)。