超先验网络输出的σ\sigmaσ和μ\muμ,通过这两个参数对潜在表示y中的每一点都进行高斯建模,然后计算出每个像素值的概率,进行熵编码得到bit流。
理论
1、加入超先验网络的动机
以往的图像压缩都是对潜在表示整体进行熵建模,如假定整个潜在分布都服从同一分布,然而,当潜在表示存在统计依赖关系,这种全分解的熵模型并不能达到最优的压缩效果;
如果为潜在表示下的每个像素点分别估计各自的分布(均值和方差),在熵编码阶段中依据该信息,可以有效的消除原潜在表示中存在的边信息(Variational Image Compression with a Scale Hyperprior论文中的实验已经验证潜在分布y除以其方差确实可以减少相关性)
2、信息量及损失函数中bpp
信息量:表示该符号所需要的位数。
考虑用 0 和 1 组成的二进制数码为含有 n 个符号的某条消息编码,假设符号aja_jaj在整条消息中重复出现的概率为 PjP_jPj ,则该符号的信息量定义为:
En=−log2(Pj) E_n=-log_2(P_j) En=−log2(Pj)
信息量表示为以 2 为底的对数,是正值。
举例说明:
输入信源字符串:
aabbaccbaaa、b、c 出现的概率分别为 0.5、0.3 和 0.2,他们的信息量分别为:
Ea=−log20.5=1Eb=−log20.3=1.737Ec=−log20.2=2.322 E_a=-log_20.5=1\\ E_b=-log_20.3=1.737\\ E_c=-log_20.2=2.322 E

文章介绍了超先验网络如何改进图像压缩方法,通过为每个像素点的潜在表示建模来优化压缩效果。利用高斯分布和熵编码,减少了潜在表示的统计依赖关系,提高了压缩效率。误差函数和信息量的概念被用来计算比特率和损失函数,从而在压缩和保真度之间找到平衡。
最低0.47元/天 解锁文章

1万+

被折叠的 条评论
为什么被折叠?



