tppca的理论推导-1

原创已于 2023-07-29 10:41:49 修改 · 1.4k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#概率论 #线性代数 #机器学习

于 2021-01-07 14:48:49 首次发布

数据科学专栏收录该内容

22 篇文章

订阅专栏

本文详细介绍了tppca模型，涉及预备知识、模型形式、t分布及其相关分布，重点展示了参数估计过程，特别是如何利用EM算法计算后验分布和Q函数。通过推导，读者能理解tppca模型的构造与参数估计方法。

Task4-tppca的理论推导-1

1 tppca模型
- 1.1 预备知识
- 1.2 模型形式
2 推导要用的分布
3 tppca模型的参数估计

（该博客是自己在完成老师任务时经过查阅资料自行推导并整理的笔记，在变量的字母符号设置上前后有所差异，但不影响阅读，如有错误，请联系我，此笔记仅用于学习，如需转载，请注明来源，谢谢！）

1 tppca模型

1.1 预备知识

tppca模型是ppca模型在t分布下的推广，因此，要定义tppca模型，必先了解多元t分布 $t(\mu,\Sigma,\nu)$ 的概率密度：

$\begin{aligned} p(\mathbf{t} \mid \boldsymbol{\mu}, \mathbf{\Sigma}, v)=& \frac{\Gamma((v+d) / 2)|\mathbf{\Sigma}|^{-1 / 2}}{\Gamma(v / 2)(v \pi)^{d / 2}} \\ & \times\left[1+(\mathbf{t}-\boldsymbol{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{t}-\boldsymbol{\mu}) / v\right]^{-(v+d) / 2} \end{aligned}$

其中， $\mathbf{\Sigma}$ 是对称和正定的，如果 $\nu>1$ 时 $\boldsymbol{\mu}$ 是均值向量，如果 $\nu>2$ 时， $\frac{\mathbf{\Sigma} \nu}{\nu-2}$ 是协方差矩阵；多元正态分布 $\mathscr{N}(\boldsymbol{\mu}, \mathbf{\Sigma})$ 是 $t(\boldsymbol{\mu}, \mathbf{\Sigma}, \infty)$ 的极限。

通常直接对t分布求解参数是困难的，因此常常把多元t分布看作是一个特殊的高斯混合。例如：要从多元t分布 $t(\mu,\Sigma,\nu)$ 中抽取一个t向量，我们引入一个潜变量 $\tau$ ，且 $\tau \sim Gamma(v / 2, v / 2)$ ,概率密度函数如下：

$p(\tau)=p(\tau ; \frac{\nu}{2}, \frac{\nu}{2})=\frac{\frac{\nu}{2}^{\frac{\nu}{2}} \tau^{\frac{\nu}{2}-1}}{\Gamma(\frac{\nu}{2})} \exp \{-\frac{\nu}{2} \tau\}$

当 $\tau$ 给定时，向量 $t$ 是从多元正态分布 $\mathscr{N}(\boldsymbol{\mu}, \mathbf{\Sigma} / \tau)$ 中抽取的，则容易验证向量 $t$ 的边际分布就是 $t(\mu,\Sigma,\nu)$ 。

具体验证过程如下：

$\begin{aligned} p(t) &=\int_{0}^{+\infty} p(t \mid \tau) p(\tau) d \tau \\ &=\int_{0}^{+\infty}(2 \pi)^{-\frac{d}{2}}\left|\frac{\Sigma}{\tau}\right|^{-\frac{1}{2}} \exp \left\{-\frac{1}{2}(t-\mu)^{\top}\left(\frac{\Sigma}{\tau}\right)^{-1}(t-\mu)\right\}\\ &\cdot \frac{\left(\frac{\nu}{2}\right)^{\frac{\nu}{2}}}{\Gamma\left(\frac{\nu}{2}\right)} \cdot \tau^{\frac{\nu}{2}-1} \exp \left\{-\frac{\nu}{2} \tau\right\} d \tau \\ &=(2 \pi)^{-\frac{d}{2}} \mid \Sigma \mid^{-\frac{1}{2}} \frac{\left(\frac{\nu}{2}\right)^{\frac{\nu}{2}}}{\Gamma(\frac{\nu}{2})}\int_{0}^{+\infty} \tau^{\frac{d+v}{2}-1} \exp\{-\frac{(t-\mu)^T \Sigma^{-1} (t-\mu)}{2} \tau\} d \tau \\ &=(2\pi)^{\frac{d}{2}} |\Sigma|^{\frac{1}{2}} \frac{\left(\frac{\nu}{2}\right)^{\frac{\nu}{2}}}{\Gamma(\frac{\nu}{2})} \frac{\Gamma(\frac{d+v}{2})}{[\frac{(t-\mu)^T \Sigma^{-1} (t-\mu)}{2}+\nu]^{\frac{d+v}{2}}} \\ &\cdot \int_{0}^{+\infty} \frac{[\frac{(t-\mu)^T \Sigma^{-1} (t-\mu)}{2}]^{\frac{d+v}{2}}}{\Gamma(\frac{d+v}{2})} \tau^{\frac{d+v}{2}-1} \exp\{-\frac{(t-\mu)^T \Sigma^{-1} (t-\mu)}{2} \tau\} d \tau \\ &= \frac{\Gamma((v+d) / 2)|\mathbf{\Sigma}|^{-1 / 2}}{\Gamma(v / 2)(v \pi)^{d / 2}} \\ & \times\left[1+(\mathbf{t}-\boldsymbol{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{t}-\boldsymbol{\mu}) / v\right]^{-(v+d) / 2} \end{aligned}$

也就是说t的边际分布就是对 $p(t,\tau)$ 的联合分布关于 $\tau$ 积分所得，这个分布便是 $t(\mu,\Sigma,\nu)$ 。

1.2 模型形式

$\begin{array}{l} \mathbf{t}_n \mid \tau_n, \mathbf{x}_n=\mathbf{W} \mathbf{x}_n+\boldsymbol{\mu_n}+\boldsymbol{\varepsilon_n} \\ \mathbf{x}_n|\tau_n \sim \mathscr{N}(\mathbf{0}, \mathbf{I} / \tau_n), \quad \boldsymbol{\varepsilon_n}| \tau_n \sim \mathscr{N}\left(\mathbf{0}, \sigma^{2} \mathbf{I} / \tau_n \right) \\ \tau_n \sim Ga(v / 2, v / 2) \end{array}$
其中， $\mathbf{t}_n$ 表示第 $n$ 个观测数据,维度为 $\times 1$ ， $\mathbf{x}_n$ 代表潜在因子,维度为 $\times 1$ ，噪声 $\varepsilon_n$ 假设是同方差的，且因子与噪声之间是互不相关的。

该模型中待估参数是： $\sigma^{2} ，v ，\boldsymbol{\mu}，\mathbf{W}$

2 推导要用的分布

2.1 $(t_{n} \mid x_{n}, \tau_{n})$ 的分布

当 $x_{n}和 \tau_{n}$ 给定时，两者可以看作是固定的，所以模型公式中
$\mathbf{t}_n \mid \tau_n, \mathbf{x}_n=\mathbf{W} \mathbf{x}_n+\boldsymbol{\mu}+\boldsymbol{\varepsilon_n}$ 只有 $\boldsymbol{\varepsilon_n}$ 是随机的，且是正态分布，因此 $t_n$ 也应该服从正态分布。

$\begin{array}{l} E\left[t_{n}\right]=E\left[w x_{n}+\mu+\epsilon_{n}\right]= x_{n}+\mu+E\left(\varepsilon_{n}\right)=w x_{n}+\mu \\ \operatorname{Cov}\left(t_{n}\right)=\operatorname{Cov}\left(\varepsilon_{n}\right)=\sigma^{2} I / \tau_n \end{array}$
故：
$\operatorname{t_n} \mid x_{n}, \tau _n \sim N\left(\mu+w x_{n}, \sigma^{2} I / \tau_n\right)$

2.2 $(t_{n} \mid \tau_{n})$ 的分布

只给定 $\tau_n$ 时， $x_n$ 和 $\varepsilon_n$ 都是随机变量，且都服从正态分布，故 $(t_{n} \mid \tau_{n})$ 也服从正态分布。

有 $x_{n}\left|\tau_{n} \sim N\left(0, I / \tau_{n}\right), \quad \varepsilon_{n}\right| \tau_{n} \sim N\left(0, \sigma^{2} I / \tau_{n}\right)$

$\begin{aligned} E\left[t_{n} \mid \tau_{n}\right]=E\left[W x_{n}+\mu+\epsilon_{n}\right] &=W E x_{n}+\mu+E\left(\varepsilon_{n}\right) \\ &=\mu \end{aligned}$

$cov(t_n \mid \tau_n) = cov(W x_n +\mu +\varepsilon_n) = \frac{WW^T+\sigma^2 I}{\tau_n}$

故： $(t_{n} \mid \tau_{n}) \sim N(\mu,\Sigma/\tau_n)$

2.3 相关分布

由预备知识可知， $\tau_n \sim Ga(\frac{\nu}{2},\frac{\nu}{2})$ ， $t_n | \tau_n \sim N(\mu,\Sigma/\tau_n)$ ， $x_n | \tau_n \sim N(0,I/\tau_n)$ ， $\varepsilon_n | \tau_n \sim N(0,\sigma^2 I/\tau_n)$ ,由以上分布及t分布的性质，可知 $t_n \sim t(\mu,\Sigma,\nu)$ ， $x_n \sim t(0,I,\nu)$ ， $\varepsilon_n \sim t(0,\sigma^2 I,\nu)$ 。

由此，我们可以看到在模型公式中 $\mathbf{t}_n=\mathbf{W} \mathbf{x}_n+\boldsymbol{\mu_n}+\boldsymbol{\varepsilon_n}$ ，潜变量 $x_n$ ，噪声 $\varepsilon_n$ 以及观测数据 $t_n$ 均服从t分布，因此ppca模型在t分布下的推广便是今天所要讨论的tppca模型。

3 tppca模型的参数估计

要计算模型的参数估计，主要的方法是极大似然估计。由上文可知，观测数据的分布为 $t_n \sim t(\mu,\Sigma,\nu)$ ，因此对数似然函数
$\begin{aligned} \textrm{L}(\Theta) &= \sum_{n=1}^{N} \log(p(t_n \mid \mu,\Sigma,\nu)) \\ &\propto \sum_{n=1}^{N} \{ \log(\frac{\nu+d}{2}) - \frac{1}{2} \log(|\Sigma|) + \frac{\nu}{2}\log(\nu) - \log(\Gamma(\frac{\nu}{2})) -\frac{\nu+d}{2}\log(\nu+(t_n-\mu)^{T}\Sigma^{-1}(t_n-\mu))\} \end{aligned}$
上式中，由于其中 $\Sigma = WW^T+\sigma^2 I$ ,故参数空间 $\Theta = (\mu,W,\sigma^2,\nu)$ ,要得到上述参数的MLE，必须分别对每个参数求导，真实似然很难求导得到想要的参数估计，因此我们利用t分布的性质，引入潜在变量 $\tau$ ,利用EM类型的算法进行求解。

3.1 完全数据的对数似然函数

观测数据为 $t_n$ ，潜在因子 $x_n$ ，新引入的潜变量为 $\tau_n$ ，因此完全数据为 $(t_n,x_n,\tau_n)$ ,参数向量为 $\Theta = (\mu,W,\sigma^2,\nu)$ ，因此完全数据的对数似然函数为：
$\begin{aligned} L_c(\Theta) &= \sum_{n=1}^{N} \log(p(t_n,x_n,\tau_n)) \\ &= \sum_{n=1}^{N} \log[p(t_n|x_n,\tau_n)p(x_n|\tau_n)p(\tau_n)] \\ &=\sum_{n=1}^{N} \{-\frac{d}{2} \log(2\pi) - \frac{d}{2} \log(\sigma^2) + \frac{d}{2} \log(\tau_n) - \frac{\tau_n}{2\sigma^2}(t_n - W x_n - \mu)^{T}(t_n - W x_n - \mu) \\ &-\frac{q}{2} \log(2\pi) + \frac{d}{2} \log(\tau_n) - \frac{t_n} {2}x_n^{T}x_n \\ &+\frac{\nu}{2} \log(\frac{\nu}{2}) - \log(\Gamma(\frac{\nu}{2})) + \frac{\nu}{2}(\log(\tau_n)-\tau_n)-\log(t_n)\}(去掉与参数无关项)\\ &\propto-\frac{Nd}{2}\log(\sigma^2) - \frac{1}{2\sigma^2}\sum_{n=1}^{N}\{\tau_n\|t_n-\mu\|^2 -2\tau_n x_n^{T}W^{T}(t_n-\mu) + tr[W\tau_n x_n x_n^{T}W^T] \}\\ &+\frac{N\nu}{2}\log(\frac{\nu}{2}) - N\log(\Gamma(\frac{\nu}{2})) + \frac{\nu}{2} \sum_{n=1}^{N}(\log\tau_n - \tau_n)\\ &=L(\theta) +L(\nu) \end{aligned}$
根据以上完全数据的似然函数，要想使用EM算法，在观测数据 $t_n$ 下， $\tau_n$ 和 $x_n$ 的后验分布。

3.2 给定观测样本，两个潜变量的后验分布

3.2.1 更新 $\tau_n$ 的分布

$\begin{aligned} p(\tau_n|t_n) &\propto p(t_n|\tau_n)p(\tau_n) \\ &=(2\pi)^{-\frac{d}{2}}|\Sigma|^{-\frac{1}{2}}\tau^{\frac{d+\nu}{2}-1} \exp\{-\frac{(t_n-\mu)^{T}\Sigma^{-1}(t_n-\mu)+\nu}{2} \tau_n\} \\ &\propto \tau^{\frac{d+\nu}{2}-1} \exp\{-\frac{(t_n-\mu)^{T}\Sigma^{-1}(t_n-\mu)+\nu}{2} \tau_n\} \\ &=Ga(\frac{d+\nu}{2},\frac{(t_n-\mu)^{T}\Sigma^{-1}(t_n-\mu)+\nu}{2}) \end{aligned}$

3.2.2 更新潜在因子 $x_n$ 的分布

$\begin{aligned} p(x_n|t_n,\tau_n) &\propto p(t_n|x_n,\tau_n)p(x_n|\tau_n) \\ &\propto \exp\{-\frac{1}{2}[\frac{\tau_n x_n^{T}(W^{t}W + \sigma^2 I)x_n}{\sigma^2}-\frac{2\tau_n x_n^{T}W^{T}(t_n-\mu)}{\sigma^2}]\} \end{aligned}$
由于 $t_n|x_n,\tau_n$ 是正态分布， $x_n|\tau_n$ 也是正态分布，因此后验分布 $x_n|t_n,\tau_n$ 必然也是正态分布，假设 $x_n|t_n,\tau_n \sim N(m,\Psi)$ ,则有其概率密度函数的形式为：
$\begin{aligned} p(x_n|t_n,\tau_n) &\propto \exp\{-\frac{1}{2}(x_n^{T}\Psi^{-1}x_n - 2 x_n^{T}\Psi^{-1}m)\} \end{aligned}$
故由上式可得：
$\begin{aligned} \Psi^{-1} = \tau_n \frac{W^{T}W + \sigma^2 I}{\sigma^2} \\ \Psi = \tau_n^{-1} \sigma^2M^{-1} = \tau_n^{-1} P = \tau_n^{-1} [I-W^T \Sigma^{-1}W] \\ m = W^T \Sigma^{-1}(t_n-\mu) \end{aligned}$

3.3 Q函数及其最大化

Q函数是完全数据的对数似然关于两个潜变量 $x_n$ 和 $\tau_n$ 的后验期望。

假设 $\sim Ga(\alpha,\beta)$ ，故 $\alpha/\beta$ ，因此， $E(\tau_n|t_n)=\frac{d+\nu}{(t_n-\mu)^{T}\Sigma^{-1}(t_n-\mu)+\nu}$

$E(\log\tau_n) = \psi(\frac{d+\nu}{2}) - \log [\frac{(t_n-\mu)^{T}\Sigma^{-1}(t_n-\mu) + \nu}{2}]$

$\tau_n$ 服从的是伽马分布，伽马分布属于指数族分布，而 $\log\tau_n$ 是伽马分布的一个充分统计量，因此该公式的计算使用了指数组分布的充分统计量的期望，即 $E(T)=\dot{b(\theta)}$ ，利用此公式即可轻松计算 $E(\log\tau_n)$ ：

$E(x_n|t_n,\tau_n) = W^{T}\Sigma^{-1}(t_n-\mu)$

$E(x_n x_n^{T}|t_n,\tau_n) = \tau_n^{-1} \sigma^2 (\sigma^2I + W^{T}W)^{-1} + E(x_n|t_n,\tau_n)E(x_n^{T}|t_n,\tau_n)$

$E(\tau_n x_n^{T}|t_n) = E(\tau_n E(x_n^{T}|t_n)|t_n)=E(\tau_n|t_n)E(x_n^{T}|t_n) (因为E(x_n^{T}|t_n)是常数)$

$E(\tau_n x_n x_n^{T}|t_n) = E(\tau_n E(x_n x_n^{T}|t_n,\tau_n)|t_n)=\sigma^2 M^{-1} + E(\tau_n|t_n)E(x_n|t_n,\tau_n)E(x_n^{T}|t_n,\tau_n)$

其中， $\sigma^{2} I +W^{T}W$

根据上面的后验期望公式，完全数据的对数似然函数转化为Q函数为：

$\begin{aligned} Q_1(\Theta) &= Q_1(\mu,W,\sigma^2) \\ &=-\frac{Nd}{2}\log\sigma^2 - \frac{1}{2\sigma^2}\sum_{n=1}^{N}\{E(\tau_n|t_n)\|t_n-\mu\|^{2} - 2E(\tau_n x_n^{T}|t_n)W^{T}(t_n-\mu) + tr[WE(\tau_n x_n x_n^{T})W^{T}]\} \end{aligned}$

$\begin{aligned} Q_2(\nu) = \frac{N\nu}{2}\log\frac{\nu}{2} - N\log\Gamma(\frac{\nu}{2}) + \frac{\nu}{2} \sum_{n=1}^{N}E(\log\tau_n - \tau_n) \end{aligned}$

对上述的 $Q_1$ 和 $Q_2$ 函数分别关于 $(\mu,W,\sigma^2)$ 和 $\nu$ 求导数：

$\frac{\partial Q_1}{\partial \mu} = \frac{1}{2\sigma^2} \sum_{n=1}^{N}\{2E(\tau_n|t_n)(t_n-\mu) - 2WE(\tau_n x_n|t_n)\} = 0$

$\sum_{n=1}^{N}E(\tau_n|t_n)(t_n-\mu) =W \sum_{n=1}^{N} E(\tau_n|t_n) E(x_n|\tau_n)$

$\mu^{(t+1)} = \frac{\sum_{n=1}^{N} E(\tau_n|t_n) [t_n - W^{(t+1)} E(x_n|t_n)]}{\sum_{n=1}^{N} E(\tau_n|t_n)}$

令 $\rho = \frac{1}{N} \sum_{n=1}^{N}E(\tau_n|t_n)$ , $\mu^{*} = \frac{1}{N \rho} \sum_{n=1}^{N} E(\tau_n|t_n)t_n$ ,则有 $\mu$ 的更新迭代公式为：

$\mu^{(t+1)} = \mu^{(t)} + \sigma^{2(t)}[\Sigma^{(t)}]^{-1} (\mu^{*(t)} - \mu^{(t)})$

求解W:
$\begin{aligned} dQ1_{|W} &= \frac{1}{2\sigma^2} \sum_{n=1}^{N} \{2tr[(t_n-\mu) E(\tau_n x_n^{T}|t_n) dW^{T}] -2tr[W E(\tau_n x_n x_n^{T} dW^{T})]\} \\ &=\frac{1}{\sigma^2} tr\{\sum_{n=1}^{N}[(t_n-\mu)E(\tau_n x_n^{T}) - W E(\tau_n x_n x_n^{T})] dW^T \} \end{aligned}$

$\frac{\partial Q_1}{\partial W} = \frac{1}{\sigma^2} \sum_{n=1}^{N} \{(t_n-\mu)E(\tau_n x_n^{T}) - W E(\tau_n x_n x_n^{T}) \}=0$

$W^{(t+1)} = [\sum_{n=1}^{N} (t_n - \mu^{(t+1)}) E(\tau_n x_n^{T}|t_n)] \times [\sum_{n=1}^{N} E(\tau_n x_n x_n^{T}|t_n)]^{-1}$

求解 $\sigma^2$ :
$\frac{\partial Q_1}{\partial \sigma^2} = -\frac{Nd}{2\sigma^2} + \frac{1}{\sigma^4} \sum_{n=1}^{N} \{ E(\tau_n|t_n)\|t_n-\mu\|^{2} - 2E(\tau_n x_n^{T}|t_n)W^{T}(t_n-\mu) + tr[WE(\tau_n x_n x_n^{T})W^{T}] \} = 0$

$\sigma^{2(t+1)} = \frac{1}{Nd} \sum_{n=1}^{N} \{ E(\tau_n|t_n)\|t_n-\mu^{(t+1)} \|^{2} - 2E(\tau_n x_n^{T}|t_n)W^{(t+1)T}(t_n-\mu^{(t+1)}) + tr[W^{(t+1)} E(\tau_n x_n x_n^{T})W^{(t+1)T}] \}$