多维高斯概率密度函数形式为f(x,μ,Σ)=1(2π)d/2∣Σ∣1/2e−12(x−μ)TΣ−1(x−μ)f(x,\mu,\Sigma)=\displaystyle\frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\Large e ^{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)}f(x,μ,Σ)=(2π)d/2∣Σ∣1/21e−21(x−μ)TΣ−1(x−μ)
其中 xxx 和 μ\muμ 是 ddd 维向量,Σ\SigmaΣ 是 d×dd \times dd×d的矩阵,Σ\SigmaΣ 和 μ\muμ 是待求参数。
设 {xi},i=1∼N\{x_i\}, i=1 \sim N{xi},i=1∼N 是符合该密度函数的 NNN 个样本,那么我们可以利用最大似然法(Maxium Likelihood)求待定参数。目标函数为:E(μ,Σ)=∑i=1Nlnf(xi,μ,Σ)=−Nd2ln(2π)−N2ln∣Σ∣−12∑i=1N(xi−μ)TΣ−1(xi−μ)E(\mu,\Sigma)=\sum_{i=1}^N \ln f(x_i,\mu,\Sigma)=-\frac{Nd}{2}\ln (2\pi)-\frac{N}{2}\ln |\Sigma|-\frac{1}{2}\sum_{i=1}^N(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)E(μ,Σ)=i=1∑Nlnf(xi,μ,Σ)=−2Ndln(2π)−2Nln∣Σ∣−21i=1∑N(xi−μ)TΣ−1(xi−μ)此时,我们假定 {xi},i=1∼N\{x_i\}, i=1 \sim N{xi},i=1∼N满足独立同分布(independent and identical distribution, i.i.d)。
根据最大似然法的要求,我们要求 Σ\SigmaΣ 和 μ\muμ 使 E(μ,Σ)E(\mu,\Sigma)E(μ,Σ)的值最大,由于 EEE 是凸函数,故可以直接求使偏导数为 000 的参数。这里为了简化计算我们可以求 Σ−1\Sigma^{-1}Σ−1 的偏导,因为行列式容易转换,而后面有一项矩阵如果进行转换回很麻烦,求出 Σ−1\Sigma^{-1}Σ−1 其实也就是求出了Σ\SigmaΣ
∂E∂μ=−12∑i=1N[Σ−1(xi−μ)+(Σ−1)T(xi−μ)]×(−1)=0∂E∂(Σ−1)=N2ΣT−12∑i=1N(xi−μ)(xi− u)T=0\begin{aligned}
&\frac{\partial E}{\partial \mu}=-\frac{1}{2}\sum_{i=1}^N\bigg[\Sigma^{-1}(x_i-\mu)+(\Sigma^{-1})^T(x_i-\mu)\bigg]\times(-1)=0 \\\\
&\frac{\partial E}{\partial (\Sigma^{-1})}=\frac{N}{2}\Sigma^T-\frac{1}{2}\sum_{i=1}^N(x_i-\mu)(x_i-\,u)^T=0
\end{aligned}∂μ∂E=−21i=1∑N[Σ−1(xi−μ)+(Σ−1)T(xi−μ)]×(−1)=0∂(Σ−1)∂E=2NΣT−21i=1∑N(xi−μ)(xi−u)T=0
显然,第二个式子好求,化简得ΣT=1N∑i=1N(xi−μ)(xi− u)T\Sigma^T=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)(x_i-\,u)^TΣT=N1i=1∑N(xi−μ)(xi−u)T可以看出来这是个对称矩阵,故Σ=ΣT=1N∑i=1N(xi−μ)(xi− u)T,Σ−1=(Σ−1)T\begin{aligned}\Sigma=\Sigma^T=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)(x_i-\,u)^T,
\Sigma^{-1}=(\Sigma^{-1})^T\end{aligned}Σ=ΣT=N1i=1∑N(xi−μ)(xi−u)T,Σ−1=(Σ−1)T再看第一个式子∑i=1N[Σ−1(xi−μ)+(Σ−1)T(xi−μ)]=0 ⟹ 2∑i=1N[Σ−1(xi−μ)]=0 ⟹ Σ−1∑i=1N(xi−μ)=0 ⟹ ∑i=1N(xi−μ)=0 ⟹ μ=1N∑i=1Nxi\begin{aligned}&\sum_{i=1}^N\bigg[\Sigma^{-1}(x_i-\mu)+(\Sigma^{-1})^T(x_i-\mu)\bigg]=0 \\\\
\implies&2\sum_{i=1}^N\bigg[\Sigma^{-1}(x_i-\mu)\bigg]=0 \\\\
\implies&\Sigma^{-1}\sum_{i=1}^N(x_i-\mu)=0 \\\\
\implies&\sum_{i=1}^N(x_i-\mu)=0 \\\\
\implies& \mu=\frac{1}{N}\sum_{i=1}^Nx_i
\end{aligned}⟹⟹⟹⟹i=1∑N[Σ−1(xi−μ)+(Σ−1)T(xi−μ)]=02i=1∑N[Σ−1(xi−μ)]=0Σ−1i=1∑N(xi−μ)=0i=1∑N(xi−μ)=0μ=N1i=1∑Nxi