深度学习——图像相似度评价指标

原创已于 2025-03-22 17:24:57 修改

· 1k 阅读

28 ·

版权

文章标签：

#深度学习 #人工智能

于 2025-03-22 10:49:04 首次发布

深度学习专栏收录该内容

26 篇文章

订阅专栏

这里写目录标题

PSNR（Peak Signal-to-Noise Ratio，峰值信噪比）
SSIM
MS-SSIM (Multi Scale Structural Similarity Index Measure,多尺度结构相似性)
CSS （Contrast-Structure Similarity 对比结构相似度）
MAE
FID
补充协方差
参考文献

PSNR（Peak Signal-to-Noise Ratio，峰值信噪比）

定义

峰值信噪比(PeakSignal toNoiseRatio，PSNR)，表示的是信号的最大功率与噪声功率的比值。峰值信噪比越高，表示噪声影响越小;峰值信噪比越低，表示噪声影响越大，单位是分贝dB。PSNR是基于像素值的全局评估，不考虑图像的结构信息。

PSNR接近50dB：表示压缩后的图像质量非常高，仅有非常小的误差。在这种情况下，原始图像和压缩后的图像之间的差异几乎不可察觉。
PSNR大于30dB：通常认为，人眼很难察觉到这种压缩水平下图像的失真。这意味着压缩后的图像在视觉上与原始图像非常接近。
PSNR介于20dB到30dB之间：在这个范围内，人眼可以开始察觉到图像的一些差异，但这些差异通常不会太显著。
PSNR介于10dB到20dB之间：在这个范围内，人眼可以较为明显地看出图像的差异，但仍然可以辨识出图像的基本结构。尽管存在失真，但人们可能仍然会认为两张图像是相似的。
PSNR低于10dB：当PSNR值非常低时，图像的质量会显著下降，以至于人眼很难判断两个图像是否为同一场景的图像，或者一个图像是否为另一个图像的有效压缩版本。

公式

假设原始图像是 $x$ ，生成图像是 $y$ ,图像大小是 $\times W$ ,两张图像的均方差公式 $(MSE)$ 定义为： $MSE=\frac{1}{HW}\sum_{i=0}^{H-1}\sum_{j=0}^{W-1}(x_{ij}-y_{ij})^2$ 我们假设图像是 $B$ 位图像，像素的最大值 $MAX=2^B-1$ ,例如如果是8位图像，图像最大值为255， $PSNR$ 的公式可以定义为:
$log_{10}(\frac{MAX^2}{MSE})$

代码

from PIL import Image
import numpy as np

def psnr(img1, img2):
    mse = np.mean((img1-img2)**2)
    if mse == 0:
        return float('inf')
    else:
        return 20*np.log10(255/np.sqrt(mse))
        
if __name__ == "__main__":
	img1 = np.array(Image.open('original.jpg')).astype(np.float64)
	img2 = np.array(Image.open('compress.jpg')).astype(np.float64)
    print(psnr(img1, img2))

SSIM

我们假设原图为 $x$ ,生成图像为 $y$ .其均值和方差分别为 $\mu_x,\mu_y,\sigma_x,\sigma_y$ 。他们的协方差为 $\sigma_{x,y}$ ,我们从三个角度考虑图像的相似度，亮度(luminance)，对比度(contrast)，结构(structure)

亮度相似度比较: $l(x,y)=\frac{2\mu_x\mu_y+c_1}{\mu_x^2+\mu_y^2+c_1}$

对比相似度比较: $c(x,y)=\frac{2\sigma_x\sigma_y+c_2}{\sigma_x^2+\sigma_y^2+c_2}$

结构相似度比较: $s(x,y)=\frac{\sigma_{xy}+c_3}{\sigma_x\sigma_y+c_3}$

$SSIM=l(x,y)c(x,y)s(x,y)=\frac{(2\mu_x\mu_y+c_1)(2\sigma_{x,y}+c_2)}{(\mu_x^2+\mu_y^2+c_1)(\sigma_x^2+\sigma_y^2+c_2)}$

其中 $c_1,c_2,c_3$ 是稳定除法运算的常数， $c_1=(k_1L)^2 ,c_2=(k_2L)^2,c_3=c_2/2$ , $L$ 是像素值的动态范围 $2^B-1$ ，默认值： $k_1=0.01,k_2=0.03$

然而，上面的 SSIM 不能用于一整幅图。因为在整幅图的跨度上，均值和方差往往变化剧烈；同时图像上不同区块的失真程度也有可能不同，不能一概而论；此外类比人眼睛每次只能聚焦于一处的特点，作者采用 sliding window 以步长为 1 计算两幅图各个对应 sliding window 下的 patch 的 SSIM，然后取平均值作为两幅图整体的 SSIM，称为 Mean SSIM，简写为 M-SSIM。代码中，计算每个 patch 的均值和方差时，作者采用了方差为 1.5 的高斯卷积核作加权平均，滑窗大小为 11*11 ，如果整幅图有 M 个 patch，那么 Mean-SSIM 公式为：
$Mean-SSIM=\frac{1}{M}\sum_m^MSSIM(x_{patch},y_{patch})$

MS-SSIM (Multi Scale Structural Similarity Index Measure,多尺度结构相似性)

MS-SSIM（多尺度结构相似性指数）是SSIM（结构相似性指数）的扩展版本，用于评估图像质量。它通过多个尺度来捕捉图像的结构信息，从而更全面地评估图像相似度。MS-SSIM的公式如下：

$\text{MS-SSIM}(x, y) = [l_M(x, y)]^{\alpha_M} \cdot \prod_{j=1}^{M} [c_j(x, y)]^{\beta_j} \cdot [s_j(x, y)]^{\gamma_j}$

其中：

$x$ 和 $y$ 分别是待比较的两幅图像。
$ M $ 是尺度的总数。
$l_M(x, y)$ 是在第 M 个尺度上的亮度比较。
$c_j(x, y)$ 是在第 j 个尺度上的对比度比较。
$s_j(x, y)$ 是在第 j 个尺度上的结构比较。
$\alpha_M$ , $\beta_j$ , 和 $\gamma_j$ 是权重参数，用于调整各部分的贡献。

CSS （Contrast-Structure Similarity 对比结构相似度）

CSS是SSIM的一个变体，去除了SSIM中的亮度这一项，
$CSS(x,y)=\frac{2\sigma_{xy}+c}{\sigma_x^2+\sigma_y^2+c}$

MAE

图像相似度计算中，MAE（Mean Absolute Error，平均绝对误差）是一种常用的指标，用于衡量两幅图像之间的差异。MAE 的计算公式如下：

$\text{MAE} = \frac{1}{HW} \sum_{i=0}^{H-1} \sum_{i=0}^{W-1}|x_{i,j} - y_{i,j}|$

FID

FID（Fréchet Inception Distance）是一种用于评估生成图像质量的指标，尤其在生成对抗网络（GAN）中广泛应用。它通过比较生成图像与真实图像的统计特征来衡量相似度。

$\text{FID} = \|\mu_g - \mu_r\|^2 + \text{Tr}(\Sigma_g + \Sigma_r - 2(\Sigma_g \Sigma_r)^{1/2})$

其中， $\|\mu_g - \mu_r\|^2$ 是均值差的平方， $\text{Tr}$ 是矩阵的迹。

补充协方差

两张图像的协方差公式用于衡量它们之间的线性关系。对于图像 $x$ 和 $y$ ，假设它们的大小均为 $\times W$ ，协方差公式如下：

$\sigma(x, y) = \frac{1}{HW} \sum_{i=0}^{H-1} \sum_{j=0}^{W-1} (x_{ij} - \mu_x)(y_{ij}- \mu_y)$

其中： $x (i, j)$ 和 $y (i, j)$ 分别是图像 $x$ 和 $y$ 在像素点 $(i, j)$ 处的灰度值。 $\mu_x$ 和 $\mu_y$ 分别是图像 $x$ 和 $y$ 的均值，计算公式为：
$\mu_x = \frac{1}{HW} \sum_{i=0}^{H-1} \sum_{j=0}^{W-1} x_{ij}, \quad \mu_y = \frac{1}{HW} \sum_{i=0}^{H-1} \sum_{j=0}^{W-1} y_{ij}$
协方差为正表示两图像变化趋势一致，为负则表示变化趋势相反，接近零则表明两者无明显线性关系。