结构化变分近似与概率推理中的近似方法
1. 变分方法概述
变分方法是一类用于处理复杂目标函数的通用方法。在这类方法中,我们会用一个参数化的函数族 (g_g(x, \lambda)) 来对复杂的目标函数 (f_{obj}(x)) 进行下界或上界约束。以常见的下界情况为例,对于任意的 (\lambda) 值,都有 (f_{obj}(x) \geq g_g(x, \lambda)),并且对于任意的 (x),都存在某个 (\lambda) 值使得这个约束是紧的。
比如,有一个变分下界:对于任意的 (\lambda) 和 (x),都有 (-\ln(x) \geq -\lambda x + \ln(\lambda) + 1),而且对于任意的 (x),都存在某个 (\lambda) 值使该不等式取等号。这个结果是凸对偶领域中一个普遍结果的特殊情况,它保证了对于一大类函数都存在这样的约束。
这个下界允许我们用一个关于 (x) 的线性项来近似非线性函数 (-\ln(x)),不过代价是引入了一个新的变分参数 (\lambda),其值是未确定的。如果我们针对每个 (x) 值精确地优化 (\lambda),就能得到一个紧的下界,但实际上对于任意的 (\lambda) 值都能得到一个下界。
在概率推理中,能量泛函是对数配分函数的一个下界。我们可以把 (f_{obj}) 看作配分函数,(x) 对应真实分布 (P_{\Phi}) 的参数,(\lambda) 对应近似分布 (Q) 的参数。虽然当 (Q) 精确表示 (P_{\Phi}) 时,这个下界是紧的,但为了提高效率,我们通常会在一个受限的空间中优化 (Q),从而得到一个对对数配分函数的非紧下界。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



