Scale-space flow for end-to-end optimized video compression 个人理解

本文提出一种基于尺度空间光流的全新端到端视频编解码框架,解决了传统方法中光流预测的孔径问题和复杂度问题,简化了训练流程,实验结果超过现有基于学习的视频编解码技术。

文献地址:http://openaccess.thecvf.com/CVPR2020_search.py

文章中了CVPR2020。

目录

一、概述

二、本文贡献

三、论文思想

四、实验

五、结论与总结


一、概述

本文提出了一套全新的端到端视频编解码框架。针对现有基于学习的视频编解码需要光流、双线性warping和运动补偿,而且有相对复杂的架构和训练策略(需要预训练光流、训练各个子网络、训练过程中重建帧需要缓冲区),本文提出一种广义warping操作,可以处理比如去遮挡、快速运动等复杂问题,而且模型和训练流程大大简化。

二、本文贡献

本文对现有的基于学习的包含光流估计+运动补偿的框架总结出四个问题:

(1)光流预测需要解决孔径问题(光流之所以是个病态问题的原因),这个问题比压缩问题更复杂;

(2)编解码框架中加入光流网络,给整个编解码框架增加了约束和复杂度;

(3)好的光流模型如果想要达到state-of-the-art表现,需要标注数据且训练复杂化。根据DVC的训练过程,在联合训练整个网络时,不需要单独的光流标注数据,所以作者总结的这个现有基于学习的视频编解框架的缺点个人认为有点牵强。

(4)稠密光流没有“no use”的概念,每个像素都要进行warped,导致无遮挡情况下会有较大残差。

针对上面四个现有框架缺点,作者提出改进措施,本文的贡献如下:

(1)提出尺度空间光流和warping,一种对光流+双线性warping的直观概述;

(2)简单的编解码框架和训练过程。

(3)实验结果显示达超过了基于训练的视频编解码的state-of-the-art结果,而且消融实验也表明了方法的有效性。

三、论文思想

1、尺度空间光流

          

重点就在于构造光流时引入了scale field。

端到端优化的感兴趣区域(ROI)图像压缩是一种旨在在图像压缩过程中对感兴趣区域进行针对性处理,以实现高效且高质量压缩的技术。 在传统图像压缩中,通常是对整幅图像采用统一的压缩策略,这可能会导致感兴趣区域的质量损失,而端到端优化的 ROI 图像压缩则打破了这种模式。它从输入原始图像开始,经过一系列处理,直接输出压缩后的图像,整个过程进行统一的优化,以确保 ROI 区域在压缩后能尽可能保留重要信息,同时又能有效减少数据量。 从技术实现角度来看,这种压缩方法可能会结合深度学习技术。通过训练深度神经网络,网络可以学习到 ROI 区域的特征以及如何在压缩过程中对其进行保护。例如,网络可以自动识别出 ROI 区域,并对该区域采用不同的量化参数或编码策略,以达到更好的压缩效果。 在应用场景方面,端到端优化的 ROI 图像压缩具有广泛的用途。在医学图像领域,医生关注的病变区域等 ROI 非常重要,采用这种压缩技术可以在有限的存储空间和传输带宽下,保证病变区域的图像质量,有助于准确的诊断和分析。在监控领域,对于关键的监控目标所在的 ROI 进行优化压缩,既能节省存储资源,又能保证关键信息的清晰获取。 ```python # 以下是一个简单的示意代码,用于说明端到端优化 ROI 图像压缩的概念流程 import cv2 import numpy as np # 假设这是一个简单的 ROI 识别函数 def identify_roi(image): # 这里简单假设 ROI 是图像中心的一个矩形区域 height, width = image.shape[:2] roi_x = int(width * 0.25) roi_y = int(height * 0.25) roi_width = int(width * 0.5) roi_height = int(height * 0.5) return roi_x, roi_y, roi_width, roi_height # 端到端优化的 ROI 图像压缩函数 def end_to_end_roi_compression(image): roi_x, roi_y, roi_width, roi_height = identify_roi(image) roi = image[roi_y:roi_y + roi_height, roi_x:roi_x + roi_width] # 对 ROI 采用不同的压缩参数 roi_encoded = cv2.imencode('.jpg', roi, [cv2.IMWRITE_JPEG_QUALITY, 90])[1] # 对非 ROI 区域采用较低质量压缩 non_roi = image.copy() non_roi[roi_y:roi_y + roi_height, roi_x:roi_x + roi_width] = 0 non_roi_encoded = cv2.imencode('.jpg', non_roi, [cv2.IMWRITE_JPEG_QUALITY, 30])[1] # 这里简单合并编码后的数据,实际应用中可能需要更复杂处理 compressed_data = np.concatenate((roi_encoded, non_roi_encoded)) return compressed_data # 读取图像 image = cv2.imread('test_image.jpg') compressed_data = end_to_end_roi_compression(image) ```
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值