神经网络图像压缩技术新突破
概述
几乎所有在互联网上传输的图像都经过压缩以节省带宽,而通常执行压缩的编解码器(如JPG)都是手工制作的。理论上,基于机器学习的编解码器可以提供比手工编解码器更好的压缩效果和更高的图像质量。但机器学习模型通过最小化某些损失指标进行训练,而现有的损失指标(如PSNR和MS-SSIM)与人类对相似性的感知并不一致。
在今年1月的IEEE冬季计算机视觉应用会议(WACV)上,我们提出了一种用于学习图像压缩的感知损失函数,以解决这个问题。
技术方法
感知损失函数
研究表明,在任意计算机视觉任务(如物体识别)上训练的神经网络计算的中间值,比传统的损失指标更符合人类的相似性判断。基于这一观察,我们创建了适合训练图像压缩模型的损失函数。
我们使用二选一强制选择(2AFC)方法创建了压缩训练集。标注者需要从两个不同压缩方法重建的同一图像版本中选择更接近原始图像的版本。我们使用这些数据训练了一个网络来预测人类标注者的偏好,然后提取了产生输入图像向量表示的编码器,作为计算相似性得分系统的基础。
显著性整合
当前的图像编解码器(无论是传统的还是学习的)往往对图像的所有区域进行同等压缩。但大多数图像都有显著区域(如人脸和文本),这些区域的精确重建比其他区域(如天空和背景)更重要。
我们的模型包含一个现成的显著性模型,该模型在包含10,000个标注了显著区域的图像数据集上训练。编解码器基于训练数据学习如何独立使用显著性模型的输出。
实验结果
人类感知研究
我们进行了广泛的人类评估研究,将我们的方法与五种其他压缩方法在四种不同的每像素比特值(0.23、0.37、0.67、1.0)下进行比较。在三个最低比特率下,受试者认为我们模型重建的图像最接近原始图像。
下游任务评估
我们使用传统和学习图像压缩方法压缩了基准COCO数据集中的图像,然后将这些压缩图像用于实例分割和物体识别等任务。我们方法重建的图像在所有任务中都表现出优越性能,因为我们的方法能更好地保留图像中的显著方面。
技术优势
我们的相似性度量比其前身更好地近似人类判断,与人类判断得分(82.06)最接近(81.9)。相比之下,MS-SSIM和PSNR损失是得分最低的指标。
在每像素比特率低于1比特时,我们的方法明显优于其他方法。这种在不同压缩率下保留图像重要方面的压缩算法,可以为客户带来多种好处,如降低云存储成本和加快图像下载速度。
研究领域
计算机视觉
标签
压缩
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
1502

被折叠的 条评论
为什么被折叠?



