1+1<2 ?! HESIC论文解读

本文介绍了北京航空航天大学徐迈团队研发的HESIC算法,一种利用双目图像互信息的端到端压缩方法。HESIC通过主视眼指导优化编码,结合单应性变换和混合高斯/自回归熵编码,提升了Instereo2K和KITTI数据集上的压缩效率。代码和论文链接提供,展示了在不同压缩率下PSNR和SSIM的优化结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

01 

研究背景

HESIC主要针对双目图像的联合压缩任务,利用双目图像的内容相关性,通过主视眼优先编解码指导另一目降低编码过程中冗余信息的重复编码,达到优化1+1<2的效果。

科研团队为北京航空航天大学徐迈老师组, 围绕计算机视觉和图像视频压缩编码等多个low level方向进行科研。

 02 

论文主要内容简介

双目图像联合压缩,一方面需要图像压缩网络的优化,另一方面是对双目互信息的提取与利用,将二者有机结合才能更好发挥1+1<2的效果。而HESIC网络是一种面向基于深度学习的双目端到端的图像压缩算法,能够更加充分有效地利用双目图像的互信息来降低每对图片的存储开支。针对双目图像的诸多特点,HESIC网络借鉴了传统图像处理的单应性图像变换提高双目图像的编码效率、节省存储比特数,并采取了一种基于自编码器的基本网络架构。对于熵编码部分,能够分别基于混合高斯分布的模型和基于自回归的熵编码模型适应两种不同优缺点的熵编码模型,并在InStereo2K和KITTI数据集上取得了更佳效果。

 03 

代码链接

代码链接:

https://github.com/ywz978020607/HESIC

https://gitee.com/ywzsunny/HESIC-Mindspore-Migration

论文链接:

https://openaccess.thecvf.com/content/CVPR2021/papers/Deng_Deep_Homography_for_Efficient_Stereo_Image_Compression_CVPR_2021_paper.pdf

 04 

算法框架技术要点

主体框架如上,通过双目各自的编解码网络实现基本的编码解码功能,并在入口和出口通过左目作为主视眼独立编解码,并将左目通过单应性变换到右目对其编解码去冗余信息。此外,在解码后再通过单应性变换矩阵,可以将左右目图像双向变换,与对方通道并后进行简单的卷积实现交叉质量增强,进一步提升模型效果。

在熵模型部分,HESIC使用的基于混合高斯分布的模型,兼顾并行优化速度的同时提升了预测的准确度。此外,针对熵模型的不同,我们还使用了一种基于Joint自回归的双目熵编码结构,进一步提升效果,记作HESIC+,相比于HESIC,缺点是不利于并行优化,优点是能够更好利用已编码/已解码信息,提高编码效率。

 05 

实验结果

论文模型在Instereo2k和KITTI数据集的实验结果或对比实验结果,包括PSNR和SSIM两个指标在不同压缩率下的对比情况。

图:HESIC在Instereo2k和KITTI上分别取得平均后的客观效果

图 BD-BR效果对比

主观效果图

 06 

MindSpore代码实现

https://gitee.com/ywzsunny/HESIC-Mindspore-Migration

代码主要分为双目图像单应性(此部分替换成传统特征匹配也可以,对结果影响不大)、特征变换、量化+熵模型预测bpp、特征重建部分. 编解码主体结构依然是特征提取与反变换, 通过熵模型预测可以在神经网络推导过程直接计算得到预计的码字比特, 而不需真正的序列化, 从而加快训练过程.训练过程的损失函数一方面包括估计的比特率, 另一方面包括图像损失,如PSNR, 将二者通过lambda加权,调整压缩率,从而实现不同压缩率下的模型训练和测试。

 07 

总结与展望

对于双目图像压缩,更好地利用互信息,并与压缩网络深度融合才能进一步提升压缩效率。展望未来,双目图像的单应性关系与视频前后帧的关系各有特点,可以根据单应性变换进行低成本的图像内容大致配准,并结合到其他任务中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值