Fréchet Inception Distance（FID）原理

原创于 2024-09-03 16:35:17 发布 · 1.4k 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#计算机视觉

生成式模型专栏收录该内容

2 篇文章

订阅专栏

原理概述：

FID 的核心思想是通过比较真实图像和生成图像在 Inception 模型特征空间中的分布差异，来评估生成模型的性能。它假设从真实数据和生成数据中提取的特征都近似服从高斯分布。

具体步骤：

特征提取：使用预训练的 Inception 模型分别对真实图像和生成图像进行处理，得到各自的特征向量。
计算均值和协方差：
- 对于真实图像的特征向量集合，计算其均值向量 $μreal\mu_{real}$ 和协方差矩阵 $Σreal\Sigma_{real}$ 。
- 对于生成图像的特征向量集合，计算其均值向量 $μgen\mu_{gen}$ 和协方差矩阵 $Σgen\Sigma_{gen}$ 。
计算 Fréchet 距离：

FID 定义为两个多元高斯分布（分别由真实图像特征和生成图像特征的均值和协方差描述）之间的 Fréchet 距离。其计算公式为：
在这里插入图片描述

其中：

$μ1\mu_1$ 和 $μ2\mu_2$ 分别是两个分布的均值向量。
$Σ1\Sigma_1$ 和 $Σ2\Sigma_2$ 分别是两个分布的协方差矩阵。
$∣∣⋅∣∣||\cdot||$ 表示欧几里得范数。
$T r$ 表示矩阵的迹。
$Σ11/2\Sigma_1^{1/2}$ 表示 $Σ1\Sigma_1$ 的平方根矩阵。

原理解释：

$∣∣μ1−μ2∣∣2||\mu_1 - \mu_2||^2$ 这一项衡量了两个分布均值之间的差异，反映了生成图像和真实图像在特征空间中的中心位置的偏离程度。
$Tr(Σ1+Σ2−2(Σ11/2Σ2Σ11/2)1/2)Tr(\Sigma_1 + \Sigma_2 - 2(\Sigma_1^{1/2}\Sigma_2\Sigma_1^{1/2})^{1/2})$ 这一项则考虑了两个分布的协方差结构差异，反映了生成图像和真实图像在特征空间中的散布和相关性的不同。

综上所述，FID 综合考虑了均值和协方差的差异，从而给出一个数值来量化生成图像的特征分布与真实图像的特征分布的相似度。较小的 FID 值表示生成图像的特征分布更接近真实图像，意味着生成模型的性能更好。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。