Andrew Ng机器学习课程笔记（十三）之无监督学习之EM算法

最新推荐文章于 2024-03-02 09:34:58 发布

原创最新推荐文章于 2024-03-02 09:34:58 发布 · 1.7k 阅读

3 ·

CC 4.0 BY-SA版权

机器学习同时被 3 个专栏收录

21 篇文章

订阅专栏

机器学习——基础篇

19 篇文章

订阅专栏

人工智能

17 篇文章

订阅专栏

本文介绍了Jensen不等式的概念及其在凸函数和凹函数中的应用，并详细阐述了Expectation-Maximization (EM) 算法的工作原理，包括问题定义、形式化过程、推导过程以及算法的收敛性证明。

Preface
Jensen’s Inequality
- 对于凸函数
- 对于凹函数
Expectation-Maximization Algorithm

Preface

Jensen’s Inequality（Jensen不等式）
Expectation-Maximization Algorithm（EM算法）

Jensen’s Inequality

对于凸函数

令 $f(x)$ 为一个凸函数，且如果它有二阶导数，其二阶导数恒大于等于0（ $f(x)^{''} \geq 0$ ）。令 $x$ 为一个随机变量，那么：

\begin{aligned} E [f (x)] \geq f (E X) \end{aligned}

$\begin{aligned} E[f(x)]\ge f(EX) \end{aligned}$
这个不等式的含义如下图所示：
这里写图片描述

我们可以进一步推导出，如果

f(x)′′>0 f ( x ) ″ > 0 $f(x)^{''}> 0$ ，即

f(x) f ( x ) $f(x)$ 为一个严格的凸函数。那么：

E [f (x)] = f (E X) ⟺ x 为 常 量 的 概 率 为 1 ⟺ X = E X 的 概 率 为 1

$\begin{aligned} E[f(x)]= f(EX) \;&\iff\;x \;\text{为常量的概率为1}\\ &\iff \;X=EX\;\text{的概率为1} \end{aligned}$

对于凹函数

如果 $f(x)^{''}\leq0$ ，即 $f(x)$ 为一个凸函数。那么：

f (E X) \geq E [f (x)]

$\begin{aligned} f(EX)\ge E[f(x)] \end{aligned}$

Expectation-Maximization Algorithm

问题定义

假设训练集 $\{x^{(1)},x^{(2)},...,x^{(m)}\}$ 是由m个独立的无标记样本构成。我们有这个训练集的概率分布模型 $p(x,z;\theta)$ ，但是我们只能观察到 $x$ 。我们需要使参数 $\theta$ 的对数似然性最大化，即：

arg max θ l (θ) = arg max θ \sum m i = 1 l o g p (x (i); θ) = arg max θ \sum m i = 1 l o g \sum z p (x (i), z (i); θ)

$\begin{aligned} \text{arg}\;\;\underset{\theta}{\text{max}}\;\;l(\theta)&=\text{arg}\;\;\underset{\theta}{\text{max}}\;\;\underset{i=1}{\overset{m}{\sum}}log\;p(x^{(i)};\theta)\\ &=\text{arg}\;\;\underset{\theta}{\text{max}}\;\;\underset{i=1}{\overset{m}{\sum}}log\underset{z}{\sum}p(x^{(i)},z^{(i)};\theta) \end{aligned}$

形式化过程

EM算法的过程大致如下：

首先，初始化 $\theta^{(0)}$ ，调整 $Q(z)$ 使得 $J(Q,\theta^{(0)})$ 与 $\theta^{(0)}$ 相等，然后求出 $J(Q,\theta^{(0)})$ 使得到最大值的 $\theta^{(1)}$ ；固定 $\theta^{(1)}$ ，调整 $J(Q,\theta^{(1)})$ ，使得 $J(Q,\theta^{(1)})$ 与 $\theta^{(1)}$ 相等，然后求出 $J(Q,\theta^{(1)})$ 使得到最大值的 $\theta^{(2)}$ ；……；如此循环，使得 $l(\theta)$ 的值不断上升，直到k次循环后，求出了 $l(\theta)$ 的最大值 $l(\theta^{(k)})$ 。

这里写图片描述

推导过程

在问题定义中我们知道：

arg max θ l (θ) = arg max θ \sum m i = 1 l o g p (x (i); θ) = arg max θ \sum m i = 1 l o g \sum z p (x (i), z (i); θ)

假设每一个 $z^{(i)}$ 的分布函数为 $Q_i$ 。故有 $\sum_{Z}Q_{i}(z)=1,Q_{i}(z)\ge0$ 。所以：

l (θ) = \sum i l o g \sum z (i) p (x (i), z (i); θ) = \sum i l o g \sum z (i) Q i (z (i)) p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) ) \geq \sum i \sum z (i) Q i (z (i)) l o g p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) ) (1) (2) (3)

$\begin{aligned}l(\theta)&=\underset{i}{\sum}log\underset{z^{(i)}}{\sum}p(x^{(i)},z^{(i)};\theta)\quad\quad\quad\quad &(1)\\&=\underset{i}{\sum}log\underset{z^{(i)}}{\sum}Q_{i}(z^{(i)})\frac{p(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})}&(2)\\ &\ge \underset{i}{\sum}\underset{z^{(i)}}{\sum}Q_{i}(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})}&(3) \end{aligned}$
对于上述公式中的第（2）步到第（3）步的理解：

首先由于数学期望公式 $Y=g(X),g(X)为连续函数;E(Y)=E(g(x))=\prod_{k=1}^{\infty} g(x_{k})p_{k}$ ，
$\underset{z^{(i)}}{\sum}Q_{i}(z^{(i)})\frac{p(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})}$ 可以看做随机变量为 $Q_i(z^{(i)})$ 概率分布函数为 $\frac{p(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})}$ 的期望，即为：
$\sum z (i) Q i (z (i)) p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) ) = E (p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) ))$ $\begin{aligned} \underset{z^{(i)}}{\sum}Q_{i}(z^{(i)})\frac{p(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})}=E(\frac{p(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})}) \end{aligned}$
由Jensen不等式，且 $f(x)=log\; x,f''(x)=-\frac{1}{x^{2}} <0$ ，所以：
$f (E z (i) \sim Q i [p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) )]) \geq E z (i) \sim Q i [f (p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) ))]$ $\begin{aligned} f(\underset{}{E}_{z^{(i)}\sim Q_{i}}[\frac{p(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})}])\ge \underset{}{E}_{z^{(i)}\sim Q_{i}}[f(\frac{p(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})})] \end{aligned}$

所以参数 $\theta$ 的对数似然性就有了一个下界，我们回想在EM算法的形式化过程中的不断推进得到的下界不断上升的过程，在这里我们也希望得到一个更加紧密的下界，也就是使等号成立的情况。
根据Jensen不等式，所以有：

p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) ) = c (c 为 常 数)

$\begin{aligned}\frac{p(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})} =c \;\;\;(c为常数) \end{aligned}$
所以：

Q i (z (i)) = c * p (x (i), z (i); θ) (c 为 常 数)

$\begin{aligned}{Q_{i}(z^{(i)})} =c*{p(x^{(i)},z^{(i)};\theta)} \;\;\;(c为常数) \end{aligned}$
因为

∑ZQi(z)=1,Qi(z)≥0 ∑ Z Q i ( z ) = 1 , Q i ( z ) ≥ 0 $\sum_{Z}Q_{i}(z)=1,Q_{i}(z)\ge0$ ，所以：

\sum Z Q i (z (i)) = \sum Z c * p (x (i), z (i); θ) = 1 (c 为 常 数)

$\begin{aligned}\sum_{Z}{Q_{i}(z^{(i)})} =\sum_{Z}c*{p(x^{(i)},z^{(i)};\theta)}=1 \;\;\;(c为常数) \end{aligned}$
所以：

c = 1 \sum Z p ( x ( i ) , z ( i ) ; θ ) (c 为 常 数)

$\begin{aligned}c=\frac{1}{\sum_{Z}{p(x^{(i)},z^{(i)};\theta)} }\;\;\;(c为常数) \end{aligned}$
所以：

Q i (z (i)) = p ( x ( i ) , z ( i ) ; θ ) \sum z p ( x ( i ) , z ; θ ) = p ( x ( i ) , z ( i ) ; θ ) p ( x ( i ) ; θ ) = p (z (i) | x (i); θ)

$\begin{aligned}Q_{i}(z^{(i)})&=\frac{p(x^{(i)},z^{(i)};\theta)}{\sum_{z}{p(x^{(i)},z;\theta)}}\\&=\frac{p(x^{(i)},z^{(i)};\theta)}{{p(x^{(i)};\theta)}}\\&=p(z^{(i)}|x^{(i)};\theta) \end{aligned}$

EM算法

EM算法主要有两个步骤，EM算法的具体内容如下：、
Repeat until convergence{

(E-step) for each i, set
$Q i (z (i)) : = p (z (i) | x (i); θ)$ $\begin{aligned}Q_{i}(z^{(i)}):=p(z^{(i)}|x^{(i)};\theta) \end{aligned}$
(M-step) set
$θ : = arg max θ \sum i \sum z (i) Q i (z (i)) l o g p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) )$ $\begin{aligned}\theta:=\text{arg}\;\;\underset{\theta}{\text{max}}\;\;\underset{i}{\sum}\underset{z^{(i)}}{\sum}Q_{i}(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})} \end{aligned}$

｝

收敛性证明

我们可以定义一个优化目标

J (Q, θ) = \sum i \sum z (i) Q i (z (i)) l o g p ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) )

$\begin{aligned}J(Q,\theta)=\underset{i}{\sum}\underset{z^{(i)}}{\sum}Q_{i}(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})}\end{aligned}$
使用Jensen不等式，我们可以推导出：