看起来像一篇很有用的paper,而且还是23年的
没看完 后边看不懂了
Abstract
现有的解释通常将后验崩塌归因于由于变分近似而使用神经网络或优化问题。
而本文认为后验崩塌是潜在变量不可识别性的问题(a problem of latent variable non-identifiability)
本文证明了当且仅当潜在变量再生成模型中是不可识别的,才会导致了后验崩塌。
这一事实意味着后验崩溃不是特定于使用灵活(flexible)分布或近似推理的现象。相反,即使在精确推理的情况下,它也可能出现在经典概率模型中。亏贼//
本文在此理论的基础上,提出了LIDVAE模型。
该模型通过利用双射Brenier映射,并使用输入凸神经网络对它们进行参数化来解决潜在变量不可识别的问题,而无需特殊的变分推理目标或优化技巧
Intro
后验崩塌:潜在变量的后验等于先验
This phenomenon is also known as latent variable collapse, KL vanishing, and over-pruning
潜在变量坍塌,KL消失,过度修剪
后验崩溃使得VAE无法产生有意义的表示,因为它的每个数据点潜在变量都具有完全相同的后验。
先前想法:因为生成部分模型太灵活了/因为使用了变分推断。
因此基于上面的假设,许多策略都侧重于修改变分推断的目标,设计特