深度玻尔兹曼机训练过程推导

最新推荐文章于 2025-09-25 17:19:50 发布

原创最新推荐文章于 2025-09-25 17:19:50 发布 · 3.8k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#deeplearning #Boltzmann

本文详细介绍了深度玻尔兹曼机的训练过程，包括能量函数、联合概率分布及条件概率分布等，并通过数学推导展示了如何通过最大化对数似然函数来调整模型参数。

深度玻尔兹曼机的推导过程

深度波尔兹曼机相对于深度信念网络来说是完全无向的一个模型，拥有一个显层和若干个隐层。层与层之间是全连接的，层之间是不连接的。本博客主要是推导深度波尔兹曼机的训练过程，为了推导方便，我们以一层显层和两层隐层为例。

首先给出能量公式

E (v, h (1), h (2)) = v T W (1) h (1) + h (1) T W (2) h (2)

$E(v,h^{(1)},h^{(2)}) = v^TW^{(1)}h^{(1)}+h^{(1)^T}W^{(2)}h^{(2)}$
然后我们有联合概率分布

p (v, h (1), h (2)) = 1 Z exp (- E (v, h (1), h (2)))

$p(v,h^{(1)},h^{(2)}) = \frac{1}{Z}\exp(-E(v,h^{(1)},h^{(2)}))$
根据联合概率分布得到每一层的条件概率分布

P (v i = 1 | h (1)) = σ (W (1) i, : h (1)) P (h (1) i = 1 | v, h (2)) = σ (v T W (1) :, i + W (2) i, : h (2)) P (h (2) k = 1 | h (1)) = σ (h (1) T W (2) :, k)

$\begin{gather*} P(v_i = 1|h^{(1)}) = \sigma(W_{i,:}^{(1)}h^{(1)})\\ P(h_i^{(1)} = 1|v,h^{(2)}) = \sigma(v^TW_{:,i}^{(1)}+W_{i,:}^{(2)}h^{(2)})\\ P(h_k^{(2)}=1|h^{(1)}) = \sigma(h^{(1)^T}W_{:,k}^{(2)}) \end{gather*}$

下面我们详细推导深度玻尔兹曼机的训练过程
给定 $m$ 个可见变量 $\hat{v}^{(1)},\hat{v}^{(2)},\cdots,\hat{v}^{(m)}$ 训练集，调整参数使得对数似然最大，训练的函数为

L = 1 m \sum i = 1 m log p (v^(i)) = 1 m \sum i = 1 m log \sum h p (v^(i), h) = 1 m \sum i = 1 m log \sum h exp ( - E ( v ^ ( n ) , h ) ) \sum v , h exp ( - E ( v , h ) )

$\begin{aligned} \mathcal{L}& = \frac{1}{m}\sum_{i=1}^m\log p(\hat{v}^{(i)})\\ & = \frac{1}{m}\sum_{i = 1}^m\log\sum_h p(\hat{v}^{(i)},h)\\ & = \frac{1}{m}\sum_{i=1}^m\log\frac{\sum_h\exp(-E(\hat{v}^{(n)},h))}{\sum_{v,h}\exp(-E(v,h))} \end{aligned}$
下面开始对参数进行求导，我们知道

\partial log p ( v ^ ( i ) ) \partial ω i j = \partial log \sum h p ( v ^ ( i ) , h ) \partial ω i j = \sum h \partial ( log \sum h exp ( - E ( v ^ ( i ) , h ) ) - log \sum v , h exp ( - E ( v , h ) ) ) \partial ω i j = \sum h exp ( - E ( v ^ ( i ) , h ) ) \sum h exp ( - E ( v ^ ( i ) , h ) ) v i h (1) j - \sum v, h exp ( - E ( v , h ) ) \sum v , h exp ( - E ( v , h ) ) v i h (1) j = \sum h p (h | v^(i)) v i h (1) j - \sum v, h p (v, h) v i h (1) j

$\begin{aligned} \frac{\partial\log p(\hat{v}^{(i)})}{\partial \omega_{ij}}& = \frac{\partial \log\sum_h p(\hat{v}^{(i)},h)}{\partial \omega_{ij}}\\ & = \sum_h\frac{\partial (\log\sum_h\exp(-E(\hat{v}^{(i)},h))-\log\sum_{v,h}\exp(-E(v,h)))}{\partial \omega_{ij}}\\ & = \sum_h\frac{\exp(-E(\hat{v}^{(i)},h))}{\sum_h\exp(-E(\hat{v}^{(i)},h))}v_ih_j^{(1)}-\sum_{v,h}\frac{\exp(-E(v,h))}{\sum_{v,h}\exp(-E(v,h))}v_ih_j^{(1)}\\ & = \sum_hp(h|\hat{v}^{(i)})v_ih_j^{(1)}-\sum_{v,h}p(v,h)v_ih_j^{(1)} \end{aligned}$
所以，我们有

\partial log p ( v ^ ( i ) ) \partial W ( 1 ) = E p (h | v^(i)) [v h (1) T] - E p (v, h) [v h (1) T]

$\frac{\partial \log p(\hat{v}^{(i)})}{\partial W^{(1)}} = \mathbb{E}_{p(h|\hat{v}^{(i)})}[vh^{(1)^T}]-\mathbb{E}_{p(v,h)}[vh^{(1)^T}]$
那么我们可以得到

\partial L \partial W ( 1 ) = 1 m \sum i = 1 m E p (h | v^(i)) [v h (1) T] - E p (v, h) [v h (1) T]

$\frac{\partial \mathcal{L}}{\partial W^{(1)}} = \frac{1}{m}\sum_{i=1}^m\mathbb{E}_{p(h|\hat{v}^{(i)})}[vh^{(1)^T}]-\mathbb{E}_{p(v,h)}[vh^{(1)^T}]$
在处理深度波尔兹曼机的时候，第一项我们需要知道

p(h|v)p(h|v) $p(h|v)$ ，但是它是很难处理的，所以我们想找一个函数来逼近它。我们令

Q(h(1),h(2)|v)Q(h(1),h(2)|v) $Q(h^{(1)},h^{(2)}|v)$ 为

P(h(1),h(2)|v)P(h(1),h(2)|v) $P(h^{(1)},h^{(2)}|v)$ 的近似，为了更好的计算

Q(h(1),h(2)|v)Q(h(1),h(2)|v) $Q(h^{(1)},h^{(2)}|v)$ ，我们假设是一个均匀场，根据均匀场理论假设我们得到

Q (h (1), h (2) | v) = \prod j Q (h (1) j | v) \prod k Q (h (2) k | v)

$Q(h^{(1)},h^{(2)}|v) = \prod_j Q(h_j^{(1)}|v)\prod_k Q(h_k^{(2)}|v)$
所以我们优化

L = ln P (v) - D (Q (h | v) | | P (h | v)) = E [ln P (v) + ln P ( h | v ) Q ( h | v )] = E [ln P ( h | v ) P ( v ) Q ( h | v )]

$\begin{aligned} L &= \ln P(v)-D(Q(h|v)|| P(h|v))\\ & = \mathbb{E}\left[\ln P(v)+\ln \frac{P(h|v)}{Q(h|v)}\right]\\ & = \mathbb{E}\left[\ln \frac{P(h|v)P(v)}{Q(h|v)}\right]\\ %& = \mathbb{E}[\ln \frac{P(v,h)}{Q(h|v)}] \end{aligned}$
减去的一项是

PP $P$ 和

Q

$Q$ 的交叉熵，当两者分布一样时为

00 $0$ ，所以我们从优化

\ln P (v)

$\ln P(v)$ 转而优化

LL $L$ 。
所以

\begin{aligned} L & = E [\ln \frac{P (v, h)}{Q (h | v)}] \\ = E [\ln \frac{P (v, h)}{Q (h | v)}] \\ = E [\ln P (v, h)] - E [\ln Q (h | v)] \\ = \sum_{h} Q (h | v) \ln P (v, h) + H (Q) \end{aligned}

$\begin{aligned} L&= \mathbb{E}\left[\ln \frac{P(v,h)}{Q(h|v)}\right]\\ & = \mathbb{E}\left[\ln\frac{P(v,h)}{Q(h|v)}\right]\\ & = \mathbb{E}[\ln P(v,h)]-\mathbb{E}[\ln Q(h|v)]\\ & = \sum_h Q(h|v)\ln P(v,h)+H(Q) \end{aligned}$
所以我们首先第一步选择合适的

QQ $Q$ 来逼近

P

$P$ ，然后再对优化的函数进行求导。为了问题更简化，我们假设

QQ $Q$ 是伯努利分布，那么我们即可假设

{\hat{h}}_{j}^{(1)} = Q (h_{j}^{(1)} = 1 | v)

$\hat{h}_j^{(1)} = Q(h_j^{(1)} = 1|v)$ ，

h^(2)k=Q(h(2)k=1|v)h^k(2)=Q(hk(2)=1|v) $\hat{h}_k^{(2)} = Q(h_k^{(2)}=1|v)$ ，这个时候

Q (h (1), h (2) | v) = \prod j (h^(1) j) h (1) j (1 - h^(1) j) (1 - h (1) j) \times \prod k (h^(2) k) h (2) k (1 - h^(2) k) (1 - h (2) k)

$Q(h^{(1)},h^{(2)}|v) = \prod_j(\hat{h}_j^{(1)})^{h_j^{(1)}}(1-\hat{h}_j^{(1)})^{(1-h_j^{(1)})}\times\prod_k(\hat{h}_k^{(2)})^{h_k^{(2)}}(1-\hat{h}_k^{(2)})^{(1-h_k^{(2)})}$
利用均匀场理论，我们只需求解下面的不动点方程即可确定

QQ $Q$ 的参数，即

\begin{matrix} \frac{\partial L}{\partial {\hat{h}}_{j}^{(1)}} = 0 \frac{\partial L}{\partial {\hat{h}}_{j}^{(2)}} = 0 \end{matrix}

$\begin{gather*} \frac{\partial L}{\partial \hat{h}_j^{(1)}} = 0\quad \frac{\partial L}{\partial \hat{h}_j^{(2)}} = 0 \end{gather*}$
这个时候我们得到更新规则

h^(1) j = σ (\sum i v i W (1) i, j + \sum k' W (2) j, k' h^(2) k') h^(2) k = σ (\sum j' W (2) j', k h^(1) j')

$\begin{gather*} \hat{h}_j^{(1)} = \sigma(\sum_i v_iW_{i,j}^{(1)}+\sum_{k'}W_{j,k'}^{(2)}\hat{h}_{k'}^{(2)})\\ \hat{h}_k^{(2)} = \sigma(\sum_{j'}W_{j',k}^{(2)}\hat{h}_{j'}^{(1)}) \end{gather*}$
确定好

QQ $Q$ 之后，我们就可以来优化我们的函数

L

$L$

L = E [ln P (v, h)] + H (Q) = - E [E (v, h)] - ln Z + H (Q)

$\begin{aligned} L &= \mathbb{E}[\ln P(v,h)]+H(Q)\\ & = -\mathbb{E}[E(v,h)]-\ln Z+H(Q) \end{aligned}$
以计算

E[h(1)TW(2)h(2)]E[h(1)TW(2)h(2)] $\mathbb{E}[h^{(1)^T}W^{(2)}h^{(2)}]$ 为例，由

h^(1)j=Q(h(1)j=1|v)h^j(1)=Q(hj(1)=1|v) $\hat{h}_j^{(1)} = Q(h_j^{(1)} = 1|v)$ 以及

h^(2)k=Q(h(2)k=1|v)h^k(2)=Q(hk(2)=1|v) $\hat{h}_k^{(2)} = Q(h_k^{(2)}=1|v)$ 得到

E [h (1)] = h^(1) E [h (2)] = h^(2)

$\mathbb{E}[h^{(1)}] = \hat{h}^{(1)}\quad \mathbb{E}[h^{(2)}] = \hat{h}^{(2)}$
而

h(1)h(1) $h^{(1)}$ 和

h(2)h(2) $h^{(2)}$ 在

QQ $Q$ 分布下是独立的，所以

E [h^{(1)} h^{(2)^{T}}] = E [h^{(1)}] E [h^{(2)}] = {\hat{h}}^{(1)} {\hat{h}}^{(2)}

$\mathbb{E}[h^{(1)}h^{(2)^T}] = \mathbb{E}[h^{(1)}]\mathbb{E}[h^{(2)}] = \hat{h}^{(1)}\hat{h}^{(2)}$
因此

E [h (1) T W (2) h (2)] = E [t r (h (1) T W (2) h (2))] = E [t r (W (2) h (2) h (1) T)] = t r (W (2) E [h (2) h (1) T]) = t r (W (2) h^(2) h^(1) T) = h^(1) T W (2) h^(2)

$\begin{aligned} \mathbb{E}[h^{(1)^T}W^{(2)}h^{(2)}]&=\mathbb{E}[tr(h^{(1)^T}W^{(2)}h^{(2)})]\\ & = \mathbb{E}[tr(W^{(2)}h^{(2)}h^{(1)^T})]\\ & = tr(W^{(2)}\mathbb{E}[h^{(2)}h^{(1)^T}])\\ & = tr(W^{(2)}\hat{h}^{(2)}\hat{h}^{(1)^T})\\ & = \hat{h}^{(1)^T}W^{(2)}\hat{h}^{(2)} \end{aligned}$
所以得到

L = v T W (1) h^(1) + h^(1) T W (2) h^(2) - log Z + H (Q)

$L = v^TW^{(1)}\hat{h}^{(1)}+\hat{h}^{(1)^T}W^{(2)}\hat{h}^{(2)}-\log Z+H(Q)$
给定

mm $m$ 个可见变量

{\hat{v}}^{(1)}, {\hat{v}}^{(2)}, \dots, {\hat{v}}^{(m)}

$\hat{v}^{(1)},\hat{v}^{(2)},\cdots,\hat{v}^{(m)}$ 训练集训练样本集，那么我们即优化

L L = 1 m \sum i = 1 m L (v^(i))

$\mathcal{L}\mathcal{L} = \frac{1}{m}\sum_{i=1}^mL(\hat{v}^{(i)})$
参数更新，即令

\partial L L \partial W ( 1 ) = 1 m \sum i = 1 m v T h^(1) - \partial ln Z \partial W ( 1 ) \partial L L \partial W ( 2 ) = 1 m \sum i = 1 m h^(1) T h^(2) - \partial ln Z \partial W ( 2 )

$\begin{gather*} \frac{\partial \mathcal{L}\mathcal{L}}{\partial W^{(1)}} = \frac{1}{m}\sum_{i=1}^mv^{T}\hat{h}^{(1)}-\frac{\partial \ln Z}{\partial W^{(1)}}\\ \frac{\partial \mathcal{L}\mathcal{L}}{\partial W^{(2)}} = \frac{1}{m}\sum_{i=1}^m\hat{h}^{(1)^T}\hat{h}^{(2)}-\frac{\partial \ln Z}{\partial W^{(2)}} \end{gather*}$
我们碰到了第二个难点在于计算

∂lnZ∂W(1)∂ln⁡Z∂W(1) $\frac{\partial \ln Z}{\partial W^{(1)}}$ 和

∂lnZ∂W(2)∂ln⁡Z∂W(2) $\frac{\partial \ln Z}{\partial W^{(2)}}$

\partial ln Z \partial W ( 1 ) = ln \sum v \sum h P ( v , h ) W ( 1 ) = exp ( - E ( v , h ) ) \sum v \sum h exp ( - E ( v , h ) ) \times (\partial ( - E ( v , h ) ) \partial W ( 1 )) = E P (v, h) [v T h (1)]

$\begin{aligned} \frac{\partial \ln Z}{\partial W^{(1)}} & = \frac{\ln \sum_{v}\sum_hP(v,h)}{W^{(1)}}\\ & = \frac{\exp(-E(v,h))}{\sum_v\sum_h \exp(-E(v,h))}\times\left(\frac{\partial(-E(v,h))}{\partial W^{(1)}}\right)\\ & = \mathbb{E}_{P(v,h)}[v^Th^{(1)}] \end{aligned}$
得到的期望并不好计算，所以我们来计算它的近似期望。
我们根据下面事实，近似

f(y)f(y) $f(y)$ 在分布

p(y)p(y) $p(y)$ 上的期望，假设依概率

p(y)p(y) $p(y)$ 选取采样点