paper:A note on the evalution of generative models
相关的实验数据详情见:A note on the evaluation of generative models - Semantic Scholar
目录
概要
概率生成模型可用于压缩,去噪,修复,纹理合成,半监督学习,无监督特征学习和其他任务。鉴于这种广泛的应用,这些模型的制定,培训和评估方式存在很多异质性并不奇怪。因此,模型之间的直接比较通常很困难。本文回顾了与生成模型的评估和解释相关的大多数已知但往往未被充分认识的属性,重点是图像模型。特别地,我们表明,当数据是高维的时,当前最常用的三个标准 - 平均对数似然,Parzen窗口估计和样本的视觉保真度 - 在很大程度上彼此独立。因此,关于一个标准的良好性能不一定意味着相对于其他标准的良好性能。我们的结果表明,从一个标准到另一个标准的推断是不合理的,并且需要根据它们的预期应用直接评估生成模型。此外,我们提供的示例表明通常应避免使用Parzen窗口估计值。
1.介绍
生成模型应用可以通过很多方法进行评估
(1)可能性比较
I 对于密度评估,对数似然(等效