受限玻尔兹曼机与自动编码器的无监督学习
1. 对比散度
在梯度下降的每次迭代中,对联合分布进行吉布斯采样以生成 N 个样本是一项繁琐且不切实际的任务。因此,有一种近似这些期望的替代方法,即对比散度。
1.1 吉布斯采样的挑战
在梯度下降的每一步对联合概率分布 $P(h, v|\theta)$ 执行吉布斯采样具有挑战性,因为马尔可夫链蒙特卡罗方法(如吉布斯采样)需要很长时间才能收敛,而这是产生无偏样本所必需的。这些从联合概率分布中抽取的无偏样本用于计算期望项 $E_{P(h,v|\theta)}[v]$、$E_{P(h,v|\theta)}[h]$ 和 $E_{P(h,v|\theta)}[vh^T]$,它们是梯度组合表达式中 $E_{P(h, v|\theta)}[\nabla_{\theta}(-E(v, h))]$ 项的组成部分。
1.2 对比散度的近似
对比散度通过对仅进行几次迭代的吉布斯采样得到的候选样本 $(\bar{v}, \bar{h})$ 进行点估计,来近似总体期望 $E_{P(h, v|\theta)}[\nabla_{\theta}(-E(v, h))]$。这种近似针对每个数据点 $v^{(t)}$ 进行,因此总体梯度的表达式可以重写为:
[
\begin{align }
&\frac{1}{m}\sum_{t = 1}^{m}E_{P(h,v|\theta)}[\nabla_{\theta}(-E(v, h))]\
\approx&\frac{1}{m}\sum_{t = 1}^{m}(\nabla_{\theta}(-E(v^{(t)}, h^
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



