如何理解“LsimpleL_{\text{simple}}Lsimple 在 t=1t=1t=1 时近似 L0L_0L0” ?
这是一个非常微妙但关键的点。我们来彻底讲清楚 “LsimpleL_{\text{simple}}Lsimple 在 t=1t=1t=1 时近似 L0L_0L0” 这句话背后的含义,以及什么是“关联”。
1. 回顾 L0L_0L0 项(精确的方法)
首先,我们明确 L0L_0L0 是什么:
L0=−logpθ(x0∣x1)L_0 = -\log p_\theta(x_0 | x_1)L0=−logpθ(x0∣x1)
其中 pθ(x0∣x1)p_\theta(x_0 | x_1)pθ(x0∣x1) 是通过那个离散解码器计算出来的:
pθ(x0∣x1)=∏i=1D∫δ−(x0i)δ+(x0i)N(x;μθi(x1,1),σ12)dxp_\theta(x_0|x_1) =\prod_{i=1}^D \int_{\delta_{-}(x_0^i)}^{\delta_{+}(x_0^i)} \mathcal{N}(x; \mu_\theta^i(x_1, 1), \sigma_1^2) dxpθ(x0∣x1)=i=1∏D∫δ−(x0

最低0.47元/天 解锁文章
2113

被折叠的 条评论
为什么被折叠?



