数据学习(10)·最大期望算法·因子分析模型(下)

最新推荐文章于 2025-02-16 08:40:47 发布

冈仁波齐下写一串优美的代码

最新推荐文章于 2025-02-16 08:40:47 发布

阅读量677

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/m0_37846020/article/details/86475666

版权

机器学习专栏收录该内容

22 篇文章

订阅专栏

作者课堂笔记摘录，有问题请联系 humminwang@163.com

1 因子分析（Factor Analysis）

内容参考 http://blog.youkuaiyun.com/stdcoutzyx/article/details/37559995
高斯混合模型，当训练数据样本数目小于样本维度的时候，因为协方差矩阵的非奇异性，导致不能得到概率密度函数问题，对于其他模型来说，样本数小于样本维度，也容易引发过拟合的问题。
解决办法：加强模型假设，比如对协方差矩阵的限制。第二个就是降低模型的复杂度，提出一个更少参数模型，如因子分析。
限制协方差矩阵的方法：比如假设协方差矩阵为对角矩阵，更强的假设是协方差矩阵为对角且对角线上的值都相等。当需要估计完整协方差矩阵时，样本数目必须大于样本维度，但是当有对角假设时，样本数目大于1就可以估算出限制的协方差矩阵。

高斯分布矩阵表示：

设有三个变量 $x_1\in R^r,x_2\in R^s,x\in R^{r+s}$ .
$x=\begin{bmatrix}x_1\\x_2\end{bmatrix}$
假设 $x\sim \N(\mu,\Sigma)$ ,所以:
$\mu=\begin{bmatrix}\mu_1\\\mu_2\end{bmatrix},\quad \Sigma=\begin{bmatrix}\Sigma_{11}&\Sigma_{12}\\\Sigma_{21}&\Sigma_{22}\end{bmatrix}$
其中 $x_1$ 的边际分布可以得到：
$E[x_1]=\mu_1,\quad Cov(x_1)=E[(x_1-\mu_1)(x_1-\mu_1)^T]=\Sigma_{11}$
所以对x我们可以得到：
$Cov(x)=\Sigma=\begin{bmatrix}\Sigma_{11}&\Sigma_{12}\\\Sigma_{21}&\Sigma_{22}\end{bmatrix}=E[(x-\mu)(x-\mu)^T]$
$...=E[\begin{bmatrix}x_1-\mu_1\\x_2-\mu_2\end{bmatrix}\begin{bmatrix}x_1-\mu_1\\x_2-\mu_2\end{bmatrix}^T]=E\begin{bmatrix}(x_1-\mu_1)(x_1-\mu_1)^T&(x_1-\mu_1)(x_2-\mu_2)^T\\(x_2-\mu_2)(x_1-\mu_1)^T&(x_2-\mu_2)(x_2-\mu_2)^T\end{bmatrix}$
在给定 $X_2$ 时 $x_1$ 的概率是：
$p(x_1|x_2)=\frac{p(x_1,x_2)}{p(x_2)}=\frac{p(x)}{p(x_2)}$
$x_1|x_2\sim \N(\mu_{1|2},\Sigma_{1|2})$
$\mu_{1|2}=\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)$
$\Sigma_{1|2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}$

因子分析模型

因子分析模型的定义如下：
假设隐变量 $z\sim N(0,I),z\sim R^d,(d<n)$ .再假设训练样本 $x$ 由隐含变量 $z$ 生成，即 $x=\mu+\Lambda z+\varepsilon$ . 其中 $\varepsilon\sim N(0,\Psi)$ . $z$ 已知的时候，上式 $x$ 的产生分布 $x|z\sim N(\mu+\Lambda z,\Psi)$
其中 $\Psi$ 是对角矩阵。
因子分析模型可以从训练数据的生成过程来理解：

<1> 在一个低维空间内用均值为0，协方差为单位矩阵的多元高斯分布生成m个隐变量 $z^{(i)}$ ， $z^{(i)}$ 是d维向量，m是样本数目。
<2> 然后使用变换矩阵 $\Lambda$ 将 $z$ 映射到n维空间 $\Lambda z$ 。此时因子 $z$ 的均值为0，映射后的均值仍然是 $0$ .
<3> 再将n维向量 $\Lambda z$ 加上一个均值 $\mu$ ，对应的意义是将变换后的 $z$ 的均值在n维空间上平移。
<4> 由于真实的样例x会有误差，因此在此变换的基础上再加上误差 $\varepsilon \sim N(0,\Psi)$ .

因子分析模型推导

模型：
$z\sim N(0,I)$
$\varepsilon \sim N(0,\Psi)$
$x=\mu+\Lambda z+\varepsilon$
其中 $\varepsilon,z$ 互相独立。
使用高斯分布矩阵表示法对模型进行分析，方法认为 $z, x$ 符合多元高斯分布，即:
$\begin{bmatrix}z\\x\end{bmatrix}\sim N(\mu_{zx},\Sigma)$
求解 $\mu_{zx},\Sigma$ .
求解 $\Sigma$ 需要计算 $\Sigma_{zz},\Sigma_{zx},\Sigma_{xz},\Sigma_{xx}$
$\Sigma_{zz}=E[(z-E[z])(z-E[z])^T]$
有定义可知 $\Sigma_{zz}=Cov(z)=I$ , $z$ 和 $\varepsilon$ 独立。
$\Sigma_{zx}=\Sigma_{xz}=E[(z-E[z])(x-E[x])^T]=E[z(\mu+\Lambda z+\varepsilon-\mu)^T]=E[zz^T]\Lambda^T+E[z\varepsilon^T]=\Lambda^T$
$\Sigma_{xx}=E[(x-E[x])(x-E[x])^T]=E[(\Lambda z+\varepsilon)(\Lambda z+\varepsilon)^T]=E[\Lambda zz^T\Lambda^T+\varepsilon z^T\Lambda^T+\Lambda z\varepsilon^T+\varepsilon\varepsilon^T]=\Lambda E[zz^T]\Lambda^T+E[\varepsilon\varepsilon^T]=\Lambda\Lambda ^T+\Psi$
得：
$\begin{bmatrix}z\\x\end{bmatrix}\sim N(\begin{bmatrix}0\\\mu\end{bmatrix},\begin{bmatrix}I&\Lambda^T\\\Lambda&\Lambda\Lambda^T+\Psi\end{bmatrix})$
所以我们得到 $x$ 的边际分布为:
$x\sim N(\mu,\Lambda\Lambda^T+\Psi)$
对于一个训练集， ${x^{(1)},....,x^{(m)}\}$ ,可以得出似然函数，但是用最大化似然函数的方法求参数很复杂，因为含有隐变量，因此我们用EM算法。

EM算法求解因子分析模型

$E-Step:Q_i(z^{(i)}|x^{(i)};\mu,\Lambda,\Psi)$
通过之前的高斯分布矩阵写法，我们可以计算条件分布概率期望和方差。
$\mu_{z^{(i)}|x^{(i)}}=\Lambda^T(\Lambda\Lambda^T+\Psi)^{-1}(x^{(i)}-\mu)$
$\Sigma_{z^{(i)}|x^{(i)}}=I-\Lambda^T(\Lambda\Lambda^T+\Psi)^{-1}\Lambda$
带入公式就可得到 $Q_i(z^{(i)}|x^{(i)})$ 的概率密度函数，即：
$Q_i(z^{(i)}|x^{(i)})=\frac{1}{(2\pi)^{n/2}|\Sigma_{z^{(i)}|x^{(i)}}|^{1/2}}exp(-\frac{1}{2}(x^{(i)}-\mu_{z^{(i)}|x^{(i)}})\Sigma_{{z^{(i)}}|x^{(i)}}^{-1}(x^{(i)}-\mu_{z^{(i)}|x^{(i)}})^T)$
$M - S t e p :$ 最大化下列公式来求取参数 $\mu,\Lambda,\Psi$ .
$\sum_{i=1}^m \int Q_i(z^{(i)})log\frac{p(z^{(i)},x^{(i)};\mu,\Lambda,\Psi)}{Q_i(z^{(i)})}dz^{(i)}$
$=\sum_{i=1}^m \int Q_i(z^{(i)})[logp(x^{(i)}|z^{(i)};\mu,\Lambda,\Psi)+logp(z^{(i)})-logQ_i(z^{(i)})]dz^{(i)}$
$=\sum_{i=1}^mE_{z^{(i)}\sim Q_i}[logp(x^{(i)}|z^{(i)};\mu,\Lambda,\Psi)+logp(z^{(i)})-logQ_i(z^{(i)})]$
上面公式中第一步先利用条件概率，将log函数分解开。第二步将积分转变为求z服从Q分布的时候，函数 $logp(x^{(i)}|z^{(i)};\mu,\Lambda,\Psi)+logp(z^{(i)})-logQ_i(z^{(i)})$ 的期望。
对 $\Lambda$ 求解：
$\bigtriangledown_\Lambda \sum_{i=1}^mE[logp(x^{(i)}|z^{(i)};\mu,\Lambda,\Psi)+logp(z^{(i)})-logQ_i(z^{(i)})]$
$=\bigtriangledown_\Lambda \sum_{i=1}^mE[logp(x^{(i)}|z^{(i)};\mu,\Lambda,\Psi)]$
去除与参数 $\Lambda$ 无关的项。
$\bigtriangledown_\Lambda\sum_{i=1}^mE[log(\frac{1}{(2\pi)^{n/2}|\Psi|^{1/2}}exp(-\frac{1}{2}(x^{(i)}-\mu-\Lambda z^{(i)})\Psi^{-1}(x^{(i)}-\mu-\Lambda z^{(i)})^T)]$
期望为 $\mu+\Lambda z^{(i)}$ ,方差为 $\Psi$ .
$=\bigtriangledown_\Lambda\sum_{i=1}^mE[-\frac{1}{2}log|\Psi|-\frac{n}{2}log(2\pi)-\frac{1}{2}(x^{(i)}-\mu-\Lambda z^{(i)})\Psi^{-1}(x^{(i)}-\mu-\Lambda z^{(i)})^T]$
$=\bigtriangledown_\Lambda\sum_{i=1}^m-E[\frac{1}{2}(x^{(i)}-\mu-\Lambda z^{(i)})\Psi^{-1}(x^{(i)}-\mu-\Lambda z^{(i)})^T]$
$=\sum_{i=1}^m\bigtriangledown_\Lambda E[-tr(\frac{1}{2}{z^{(i)}}^T\Lambda^T\Psi^{-1}\Lambda z^{(i)})+tr({z^{(i)}}^T\Lambda^T\Psi^{-1}(x^{(i)}-\mu))]$
利用矩阵迹的性质 $t r (a) = a$ .
$=\sum_{i=1}^m\bigtriangledown_\Lambda E[-tr(\frac{1}{2}\Lambda^T\Psi^{-1}\Lambda z^{(i)}{z^{(i)}}^T)+tr(\Lambda^T\Psi^{-1}(x^{(i)}-\mu){z^{(i)}}^T)]$
利用矩阵迹的性质 $t r (A B) = B A$ .
$=\sum_{i=1}^m(\bigtriangledown_\Lambda E[-tr(\frac{1}{2}\Lambda^T\Psi^{-1}\Lambda z^{(i)}{z^{(i)}}^T)]+\bigtriangledown_\Lambda E[tr(\Lambda^T\Psi^{-1}(x^{(i)}-\mu){z^{(i)}}^T)])$
$=\sum_{i=1}^m( E[-\bigtriangledown_\Lambda tr(\frac{1}{2}\Lambda^T\Psi^{-1}\Lambda z^{(i)}{z^{(i)}}^T)]+ E[\bigtriangledown_\Lambda tr(\Lambda^T\Psi^{-1}(x^{(i)}-\mu){z^{(i)}}^T)])$
求导与期望交换位置。
$=\sum_{i=1}^m( E[-\bigtriangledown_\Lambda^T tr(\frac{1}{2}\Lambda^T\Psi^{-1}\Lambda z^{(i)}{z^{(i)}}^T)^T]+ E[\bigtriangledown_\Lambda^T tr(\Lambda^T\Psi^{-1}(x^{(i)}-\mu){z^{(i)}}^T)^T])$
利用矩阵迹的性质 $\bigtriangledown_\Lambda^T f(A)=(\bigtriangledown_\Lambda f(A)^T)$ .
$=\sum_{i=1}^m(E[-\frac{1}{2}(2 z^{(i)}{z^{(i)}}^T\Lambda^T\Psi^{-1})^T]+ E[((\Psi^{-1}(x^{(i)}-\mu){z^{(i)}}^T)^T)^T])$
第一项利用矩阵 $\bigtriangledown_\Lambda tr(ABA^TC)=CAB+C^TAB^T$
第二项利用 $\bigtriangledown_\Lambda tr(AB)=B^T$
$=\sum_{i=1}^m(E[-\Psi^{-1}\Lambda z^{(i)}{z^{(i)}}^T]+E[\Psi^{-1}(x^{(i)}-\mu){z^{(i)}}^T])$
$\sum_{i=1}^m(E[-\Psi^{-1}\Lambda z^{(i)}{z^{(i)}}^T+\Psi^{-1}(x^{(i)}-\mu){z^{(i)}}^T])$
打开期望。将最后结果设为0，化简。
$\sum_{i=1}^m\Lambda E_{z^{(i)}\sim Q_i}[ z^{(i)}{z^{(i)}}^T]=\sum_{i=1}^m(x^{(i)}-\mu)E_{z^{(i)}\sim Q_i}[{z^{(i)}}^T]$
$\Lambda=(\sum_{i=1}^m(x^{(i)}-\mu)E_{z^{(i)}\sim Q_i}[{z^{(i)}}^T])(\sum_{i=1}^mE_{z^{(i)}\sim Q_i}[ z^{(i)}{z^{(i)}}^T])^{-1}$
$E_{z^{(i)}\sim Q_i}[{z^{(i)}}^T]=\mu^T_{z^{(i)}|x^{(i)}}$
$E_{z^{(i)}\sim Q_i}[ z^{(i)}{z^{(i)}}^T]=\mu_{z^{(i)}|x^{(i)}}\mu^T_{z^{(i)}|x^{(i)}}+\Sigma_{z^{(i)}|x^{(i)}}$
使用性质 $Cov(X)=E[XX^T]-E[X]E[X^T]$ .
最后 $\Lambda=(\sum_{i=1}^m(x^{(i)}-\mu)\mu^T_{z^{(i)}|x^{(i)}})(\sum_{i=1}^m\mu_{z^{(i)}|x^{(i)}}\mu^T_{z^{(i)}|x^{(i)}}+\Sigma_{z^{(i)}|x^{(i)}})^{-1}$
对 $\mu$ 和 $\Psi$ ,同理求解。
$\mu=\frac{1}{m}\sum_{i=1}^mx^{(i)}$
$\Psi=\frac{1}{m}\sum_{i=1}^mx^{(i)}{x^{(i)}}^T-x^{(i)}\mu^T_{z^{(i)}|x^{(i)}}\Lambda^T-\Lambda\mu_{z^{(i)}|x^{(i)}}{x^{(i)}}^T+\Lambda(\mu_{z^{(i)}|x^{(i)}}\mu^T_{z^{(i)}|x^{(i)}}+\Sigma_{z^{(i)}|x^{(i)}})\Lambda^T$
取对角线上的元素即可。