本博客追踪VTM-5.0中对帧内预测的改进。在VTM-5.0中,主要变化是增加了MIP预测技术;同时对帧内各种预测工具统一了MPM列表。
1.矩阵加权帧内预测(MIP)
Tracking route: N0217 -> M0043 -> L0199 -> K0196 -> J0037
VTM 5.0版本更新的帧内预测技术MIP,其最初的思想来源于基于神经网络的帧内预测技术(JVET-J0037
),即利用多层神经网络基于相邻已重建像素预测当前pu像素值。但是这种预测方式复杂度太高,经过权衡,发展出最后采纳的基于线性仿射变换的帧内预测技术。其主要流程如下
首先,要预测一个尺寸为WxH的PU,其预测参考为上方W个、左侧H个已重建像素,重建像素的获取和传统帧内预测相同。然后利用这(W+H)个像素,经过平均、仿射变换和上采样三个步骤得到最终预测值。
1.1 参考像素预处理:平均
此步骤的主要目的是对参考像素尺寸进行归一化,对于 4 × 4 4\times4 4×4的PU归一化为4个像素,其他情况归一化为8个像素,即对输入的长参考边界像素 b d r y t o p bdry^{top} bdrytop和 b d r y l e f t bdry^{left} bdryleft依据编码单元尺寸转化为短边界参考像素 b d r y r e d t o p bdry_{red}^{top} bdryredtop和 b d r y r e d l e f t bdry_{red}^{left} bdryredleft,以减少预测过程中的计算量和模型参数存储空间。然后将平均转化后的左、上短参考concat成一个向量 b d r y r e d bdry_{red} bdryred,连接的方式如下:
f ( n ) = { [ b d r y r e d t o p , b d r y r e d l e f t ] , if W = H = 4 & m o d e < 18 [ b d r y r e d l e f t , b d r y r e d t o p ] , if W = H = 4 & m o d e ≥ 18 [ b d r y r e d t o p , b d r y r e d l e f t ] , if m a x ( W , H ) = 8 & m o d e < 10 [ b d r y r e d l e f t , b d r y r e d t o p ] , if m a x ( W , H ) = 8 & m o d e ≥ 10 [ b d r y r e d t o p , b d r y r e d l e f t ] , if m a x ( W , H ) > 8 & m o d e < 6 [ b d r y r e d l e f t , b d r y r e d t o p ] , if m a x ( W , H ) > 8 & m o d e ≥ 6 f(n) = \begin{cases} [bdry_{red}^{top}, bdry_{red}^{left}], & \text{if $W=H=4$ \& $mode<18$} \\ [bdry_{red}^{left} , bdry_{red}^{top}], & \text{if $W=H=4$ \& $mode \geq 18$} \\ [bdry_{red}^{top}, bdry_{red}^{left}], & \text{if $max(W,H)=8$ \& $mode<10$} \\ [bdry_{red}^{left} , bdry_{red}^{top}], & \text{if $max(W,H)=8$ \& $mode \geq 10$} \\ [bdry_{red}^{top}, bdry_{red}^{left}], & \text{if $max(W,H)>8$ \& $mode<6$} \\ [bdry_{red}^{left} , bdry_{red}^{top}], & \text{if $max(W,H)>8$ \& $mode \geq 6$} \end{cases} f(n)=⎩⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎧[bdryredtop,bdryredleft],[bdryredleft,bdryredtop],[bdryredtop,bdryredleft],[bdryredleft,bdryredtop],[bdryredtop,bdryredleft],[bdryredleft,bdryredtop],if W=H=4 & mode<18if W=H=4 & mode≥18if max(W,H)=8 & mode<10if max(W,H)=8 & mode≥10if max(W,H)>8 & mode