图像生成评价指标:Inception Score和 FID 的定义,区别,联系。

IS(Inception Score)和FID(Frechet Inception Distance score)的定义,区别,联系:

IS(Inception Score)

定义: IS基于Google的预训练网络Inception Net-V3。Inception Net-V3是精心设计的卷积网络模型,输入为图片张量,输出为1000维向量。输出向量的每个维度的值对应图片属于某类的概率,因此整个向量可以看做一个概率分布。
也就是说 IS(Inception Score)的计算是利用的Inception Net-V3网络输出的logit经过solfmax之后的结果(logit 是指未经过 softmax 或 sigmoid 等激活函数变换前的原始输出),是个概率分布(也是后面的与FID的区别)
公式如下:
IS(G) = Exp(D(KL(p(y|x) || p(y))))
其中,G表示生成模型,D表示Inception分类器,p(y|x)表示给定输入图像x生成的类别分布,p(y)是所有输入图像的平均类别分布,KL表示Kullback-Leibler 散度。
在这里插入图片描述
因此,IS结合了两个方面的评估:图像质量的期望值(Exp)和图像质量分布的分歧度(KL)
IS越大越好。
具体公式推导参考链接:https://www.cnblogs.com/qizhou/p/13504586.html

FID(Frechet Inception Distance score)

定义:FID并不使用Inception Net-V3的原本输出作为依据,它删除模型原本的输出层,于是输出层变为Inception Net-V3的最后一个池化层。 这一层的输出是2048 维向量,因此,每个图像会被预测为2048个特征。
也就是说FID利用的是Inception Net-V3的输出的特征(与 IS(Inception Score)的不同之处正是在这里)
**FID通过比较生成图像和真实图像在特征空间中的分布距离来衡量它们之间的差异。*具体而言,FID使用了真实图像和生成图像在Inception网络的中间层的特征向量上的统计特性。公式如下:
FID(G, R) = ||mu_G - mu_R||^2 + Tr(C_G + C_R - 2
(C_G*C_R)^0.5)

其中,G表示生成模型,R表示真实图像的分布,mu和C分别是特征向量的均值和协方差矩阵。
较低的FID意味着生成分布与真实图片分布之间更接近,如果用于测试的真实图片清晰度高且种类多样,也就意味着生成图像的质量高、多样性好。
因此,FID越小越好。
具体公式推导参考链接:https://www.cnblogs.com/qizhou/p/13504586.html

参考博客:https://blog.51cto.com/u_15471597/4927876

### 图像生成模型的质量评估指标图像生成任务中,为了全面评估生成图像的质量,通常会采用多种定量定性指标。以下是几种主要的评估方法及其特点: #### 1. 基于真实性的评估指标 这些指标主要用于衡量生成图像的真实性以及其与实际数据分布的一致性。 - **Inception Score (IS)** Inception Score 是一种广泛使用的评估指标,它通过计算生成图像类别的预测概率熵来反映多样性[^3]。较高的 IS 表明生成图像不仅具有清晰的类别特征,还具备一定的多样性。 - **Fréchet Inception Distance (FID)** FID 能够更精确地度量生成样本与真实样本之间的相似程度。该距离基于两个多维高斯分布间的 Fréchet 距离计算得出,能够有效捕捉生成图像的真实感多样性。 #### 2. 文本相关性评估指标 对于文本到图像的任务,还需要考虑生成图像是否忠实于输入文本描述。 - **CLIPScore** CLIPScore 结合了预训练的语言视觉模型(如 CLIP),用于量化生成图像与其对应文本的相关性。这一分数综合考量了语义一致性视觉质量。 - **TISE (Text-to-Image Similarity Evaluation)** TISE 提供了一种专门针对文本到图像生成任务设计的方法,旨在测量生成图像对原始文本的理解能力及表达准确性。 #### 3. 主观评价与人工评测 尽管自动化指标非常重要,但人类观察者的主观判断仍然是不可或缺的一部分。这可以通过以下方式进行补充: - **人工评分** 让专家或普通用户根据具体标准给生成图片打分,比如自然度、细节表现力等。这种方法虽然耗时费力,却能提供最直观可靠的反馈信息[^1]。 #### 4. 特殊场景下的扩展指标 某些特殊应用可能需要额外关注其他方面特性: - **RP SOA** RP 反映的是区域定位精度;而 SOA 则强调对象识别准确率,在涉及复杂结构或者多个物体的情况下尤为有用。 - **NIQE (Natural Image Quality Evaluator)** NIQE 属于无参考图像质量评估技术之一,适用于快速估计合成图象的整体品质水平而不依赖任何原版参照物[^2]。 ```python import numpy as np from sklearn.metrics import accuracy_score, precision_score, recall_score def evaluate_image_quality(generated_images, real_images): """ 使用FID作为示例函数展示如何比较两组图像的距离 参数: generated_images: ndarray 形状(N,H,W,C),表示N张H×W大小C通道彩色生成图像数组. real_images: 同上定义的实际采集照片集合. 返回值: fid_value: float 类型数值代表两者间差异程度得分越低越好. """ mu_gen, sigma_gen = calculate_activation_statistics(generated_images) mu_real, sigma_real = calculate_activation_statistics(real_images) diff = mu_gen - mu_real covmean = sqrtm(np.dot(sigma_gen, sigma_real)) if not np.isfinite(covmean).all(): msg = ('fid calculation produces singular product; ' 'adding %s to diagonal of cov estimates') % eps warnings.warn(msg) offset = np.eye(sigma_gen.shape[0]) * eps covmean = sqrtm((sigma_gen + offset).dot(sigma_real + offset)) fid_value = (diff @ diff.T + trace(sigma_gen) + trace(sigma_real) - 2*trace(covmean)) return fid_value ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

KKdlg

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值