阅读笔记：图像相似性评估方法LPIPS

最新推荐文章于 2025-09-09 09:53:28 发布

原创

最新推荐文章于 2025-09-09 09:53:28 发布 · 8.8k 阅读

42 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

本文探讨了一种新的图像相似度评估方法，通过使用深度学习网络提取的特征来衡量图像间的感知相似性。研究发现，这种方法比传统指标更能反映人类的视觉感知，并且适用于多种网络结构。

论文：The Unreasonable Effectiveness of Deep Features as a Perceptual Metric
连接：https://arxiv.org/pdf/1801.03924.pdf
代码：https://www.github.com/richzhang/PerceptualSimilarity
背景：

传统像素级评估图像相似度的方法，很多时候非常的反直觉，如上图所示，判断左右两张图哪一张与中间更相似，指标的结果与人类完全相反，网络倒是通常都能得出一致结论，因此衍生出了本文的研究内容：不合理的指标。
作者认为，构建一个内容感知相关的度量指标主要有以下几个挑战：
1.人类对相似性的判断依赖高阶结构信息
2.内容依赖性较强
3.可能不构成一个距离度量。
在SRGAN中，曾使用VGG提取的特征图来构建感知Loss函数，也带来了以下问题：
1.此类“感知损失”实际上对人类视觉感知的反应如何？
2.它们与传统的感知图像评估指标相比如何？
3.网络架构重要吗？
4.它是否必须接受 ImageNet 分类任务的训练，还是其他任务也能正常工作？
5.网络是否需要训练？
结论总结
在文章中，得到的研究结果大致可以总结如下：
1.高级分类任务训练的网络的内部激活结果，确实与人类的感知判断相对应，即时使用不同的网络结构甚至没有进一步校准。
2.表现最好的是自监督网络。（连K-Means都比传统指标表现的好）。
3.一定的训练是很重要的，随机初始化网络的结果相对差很多。
贡献
文章主要贡献如下：
1.一个超大型的，多样化的，感知相似数据集，伴有484k的人类判断数据。包括各种失真和真实应用输出[超分什么的]。
2.证明了监督，自监督，无监督网络得出的深度特征，对低级感知相似性的评估效果出奇的好，远超常用老指标。
3.证明网络结构与评估相似性的性能没什么关系，但不训练会使效果变差。
4.利用此数据集，可以通过“校准”来自预训练网络的特征响应来提高性能。

数据集【BAPPS】
新老数据集对比如下：

很有趣的是这里有些对比数据集是图像质量评估的[全参考或无参考]，以普遍理性而言，全参考数据集确实是原始图片与其不同失真图片构成的，可以用来评估感知相似性。本数据集与其它数据集的一大不同之处在于，前人数据集主要是基于少量图片收集了大量判断，而本数据集主要基于大量不同失真数据。
BAPPS数据集中的图片都被切割为小patch，经过不同的失真处理或者网络处理，之后用于询问人类。