统计学习方法之EM算法作业9.4，朴素贝叶斯法的无监督学习

本文链接：https://blog.youkuaiyun.com/analywize/article/details/144262414

最近对EM算法用于无监督学习的朴素贝叶斯分类决策器很感兴趣，但奈何找了不少资料我也没彻底看懂。
这里贴一个datawhale的：
EM算法
那么我们知道EM算法的Q步是针对完全数据（包含观测数据序列和隐变量数据序列）。由于 $\theta)$ 设计隐变量Z，我们通过Q函数对其求关于Z随机变量的期望迭代近似。

接下来进入正题：

假设有一个未标注的数据集 $\{ \mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_N \}$ ，其中每个数据点 $\mathbf{x}_i \in \{x_{i1}, x_{i2}, \dots, x_{iM}\}$ 。

每个数据点对应一个隐藏的类别标签 $y_i$ ，取值范围为 $y_i \in \{1, 2, \dots, K\}$ 。

根据Naive Bayes假设：在给定类别的条件下，各特征相互独立，即
$P(\mathbf{x}_i | y_i = k) = \prod_{m=1}^M P(x_{im} | y_i = k)$

先验概率： $\pi_k = P(y = k)$ ，满足 $\sum\limits_{k=1}^K \pi_k = 1$ 。
条件概率： $\theta_{k,m}(x) = P(x_i^{(m)} = x_{im} | y = k)$

EM算法步骤

1. 初始化参数

随机初始化先验概率 $\pi_k^{(0)}$ 。
随机或基于启发式方法初始化条件概率 $\theta_{k,m}^{(0)}(x)$ 。

2. 迭代执行到收敛

E步（期望步）：计算每个数据点属于每个类别的后验概率（责任度）

对于每个数据点 $\mathbf{x}_i$ 和每个类别 $k$ ，计算：
$\gamma_{ik}^{(t)} = P(y_i = k | \mathbf{x}_i, \theta^{(t)}, \pi^{(t)}) = \frac{ \pi_k^{(t)} \prod_{m=1}^M \theta_{k,m}^{(t)}(x_{im}) }{ \sum_{j=1}^K \pi_j^{(t)} \prod_{m=1}^M \theta_{j,m}^{(t)}(x_{im}) }$

M步（最大化步）：更新参数以最大化期望的对数似然

更新先验概率 $\pi_k$ ：
$\pi_k^{(t+1)} = \frac{1}{N} \sum_{i=1}^N \gamma_{ik}^{(t)}$
更新条件概率 $\theta_{k,m}(x)$ ：
$\theta_{k,m}^{(t+1)}(x) = \frac{ \sum_{i=1}^N \gamma_{ik}^{(t)} \mathbb{I}(x_{im} = x) }{ \sum_{i=1}^N \gamma_{ik}^{(t)} }$
其中， $\mathbb{I}(\cdot)$ 为指示函数，当 $x_{im} = x$ 时取1，否则取0。

自然地，当参数更新的变化量低于预设的阈值，或者达到最大迭代次数时，停止迭代。

以上只叙述了 $P(Z|D,\theta)$ 这个核心，并不够完整，完整的Q步M步如下：

Q步

完全数据对数似然函数为：
$\log P(D, Y | \theta, \pi) = \sum_{i=1}^N \log P(\mathbf{x}_i, y_i | \theta, \pi)$
由于类别标签 $y_i$ 是隐藏的，我们取其期望：
$Q(\theta, \pi ; \theta^{(t)}, \pi^{(t)}) = \mathbb{E}_{Y | D, \theta^{(t)}, \pi^{(t)}} [\log P(D, Y | \theta, \pi)]$
那么期望展开其实就是：
$Q(\theta, \pi ; \theta^{(t)}, \pi^{(t)}) = \sum_{i=1}^N \log P(\mathbf{x}_i, y_i | \theta, \pi) P(Y | D, \theta^{(t)}, \pi^{(t)})$
注意这个写法是错误的，只是为了看清楚期望乘的是哪个因子。
再展开 $P (Y ∣ D)$ ：
$Q(\theta, \pi ; \theta^{(t)}, \pi^{(t)}) = \sum_{k = 1}^K \sum_{i=1}^N \log P(\mathbf{x}_i, y_i = k | \theta, \pi) P(y_i = k|\mathbf{x}_i, \theta^{(t)}, \pi^{(t)})$
这个才是对的。
即：（这里把Q里迭代的参数去掉了，其实没变）
$\log Q(\theta, \pi) = \sum_{i=1}^N \sum_{k=1}^K \hat{\gamma_{ik}} \log P(\mathbf{x}_i, y_i = k | \theta, \pi)$
其中， $\hat{\gamma_{ik}} = P(y_i = k | \mathbf{x}_i, \theta^{(t)}, \pi^{(t)})$ 是在E步中计算得到的“责任度”，可以类比混合高斯算法，这里的一个是离散的一个是连续的。也就是说，无论在混合高斯算法里，还是这里， $\hat{\gamma_{ik}}$ 已经是基于 $\gamma_{ik}$ 在期望上的新结果了，也就是上文的 $\gamma_{ik}^{(t)}$ 。
Note： $接下来的步骤里依然用\gamma_{ik}$ 。

在Q式子里把联合概率展开即：
$P(\mathbf{x}_i, y_i = k | \theta, \pi) = P(\mathbf{x}_i | y_i = k,\theta,\pi) P(y_i = k|\theta, \pi) = \theta_{k,m}(x_{im}) \cdot \pi_k$
注意，按统计学习方法书上朴素贝叶斯的写法，早在 $P(\mathbf{x}_i, y_i | \theta, \pi)$ 就应该写成 $P(X_i^{(m)} = \mathbf{x}_{im}, Y = y_i | \theta, \pi) (y_i \in \{1,2,\dots,K\})$ 。当然，后面加了 $\log$ 之后这个两项相乘就是两项相加了，接下来就找这两项的两个迭代参数 $\pi_k,\theta_{k,m}(x_{im})$ 。

M步

过程如下：
根据完全数据对数似然函数：
$\log P(D, Y | \pi) = \sum_{i=1}^N \sum_{k=1}^K \gamma_{ik} \log \pi_k$

为了最大化 $Q(\theta, \pi)$ 对 $\pi_k$ 的部分，我们需要解以下优化问题：
$\max_{\pi_k} \sum_{i=1}^N \sum_{k=1}^K \gamma_{ik} \log \pi_k$
约束条件：
$\sum_{k=1}^K \pi_k = 1 \quad \text{且} \quad \pi_k \geq 0,\forall k \in \{1,2,\dots,K\}$

利用拉格朗日乘数法，引入 $\lambda$ ：
$\mathcal{L} = \sum_{i=1}^N \sum_{k=1}^K \gamma_{ik} \log \pi_k + \lambda \left( 1 - \sum_{k=1}^K \pi_k \right)$

对每个 $\pi_k$ 求偏导并令为0：
$\frac{\partial \mathcal{L}}{\partial \pi_k} = \frac{\sum_{i=1}^N \gamma_{ik}}{\pi_k} - \lambda = 0$
得：
$\pi_k = \frac{1}{\lambda} \sum_{i=1}^N \gamma_{ik}$

利用约束条件 $\sum\limits_{k=1}^K \pi_k = 1$ ：
$\sum_{k=1}^K \frac{1}{\lambda} \sum_{i=1}^N \gamma_{ik} = 1 \Rightarrow \frac{1}{\lambda} \sum_{i=1}^N \sum_{k=1}^K \gamma_{ik} = 1$
由于 $\sum\limits_{k=1}^K \gamma_{ik} = 1$ 对所有 $i$ ：
$\frac{1}{\lambda} N = 1 \Rightarrow \lambda = N$
因此：
$\pi_k^{(t+1)} = \frac{1}{N} \sum_{i=1}^N \gamma_{ik}$

对于条件概率 $\theta_{k,m}(x) = P(x_i^{(m)} = x_{im} | y = k)$ ，目标是最大化：
$\sum_{i=1}^N \sum_{k=1}^K \gamma_{ik} \log \theta_{k,m}(x_{im})$
不难发现约束条件：（k，m取值不写了）
$\sum_{x} \theta_{k,m}(x) = 1 \quad \forall k, m$

同样，使用拉格朗日乘数法，引入 $\lambda_k$ ：
$\mathcal{L} = \sum_{i=1}^N \sum_{k=1}^K \gamma_{ik} \log \theta_{k,m}(x_{im}) + \sum_{k=1}^K \lambda_k \left( 1 - \sum_{x} \theta_{k,m}(x) \right)$

对每个 $\theta_{k,m}(x)$ 求偏导并设为零：
$\frac{\partial \mathcal{L}}{\partial \theta_{k,m}(x)} = \frac{\sum_{i=1}^N \gamma_{ik} \mathbb{I}(x_{im} = x)}{\theta_{k,m}(x)} - \lambda_k = 0$
解得：
$\theta_{k,m}(x) = \frac{1}{\lambda_k} \sum_{i=1}^N \gamma_{ik} \mathbb{I}(x_{im} = x)$

利用约束条件：
$\sum_{x} \theta_{k,m}(x) = 1 \Rightarrow \frac{1}{\lambda_k} \sum_{x} \sum_{i=1}^N \gamma_{ik} \mathbb{I}(x_{im} = x) = 1$
注意到对于每个 $i$ ， $\sum\limits_{x} \mathbb{I}(x_{im} = x) = 1$ ：
$\frac{1}{\lambda_k} \sum_{i=1}^N \gamma_{ik} = 1 \Rightarrow \lambda_k = \sum_{i=1}^N \gamma_{ik}$