概率与信息论
1. 部分数学概念
-
频率派(frequentist)
-
频率学派从「自然」角度出发,试图直接为「事件」本身建模。
-
频率派发展出来的模型,一般来说叫做统计机器学习,实际上是一个优化问题:
- 设计模型(概率模型、非概率模型、判别模型等)
- 设计一个损失函数(loss function)
- 具体的算法(algorithm)(梯度下降、牛顿法等)
-
-
贝叶斯派(Bayesian)
-
贝叶斯学派并不从试图刻画「事件」本身,而从「观察者」角度出发,为「观察者」的知识建模来定义「概率」这个概念。
-
贝叶斯发展出来的模型就是概率图模型,本质上就是求积分的问题,解析解求不出来一般就用数值积分(蒙特卡罗MCMC)的方法来求积分
-
贝叶斯规则(Bayes’s rule)
P ( θ ∣ X ) = P ( X ∣ θ ) ⋅ P ( θ ) P ( X ) P(\theta \mid X)=\frac{P(X \mid \theta) \cdot P(\theta)}{P(X) } P(θ∣X)=P(X)P(X∣θ)⋅P(θ)( X X X是数据, θ \theta θ是参数)
(对应的可以看成:后验概率=极大似然估计*先验概率/常数) -
极大似然估计(MLE):
θ MLE = argmax θ log P ( X ∣ θ ) \theta_{\text {MLE}}=\underset{\theta}{\operatorname{argmax}} \ {\log P(X \mid \theta)} θMLE=θargmax logP(X∣θ) -
最大后验估计(MAP):
θ MAP = argmax θ P ( θ ∣ X ) = argmax θ P ( X ∣ θ ) ⋅ P ( θ ) \theta_{\text {MAP}}=\underset{\theta}{\operatorname{argmax}}\ P(\theta \mid X)=\underset{\theta}{\operatorname{argmax}} \ P(X \mid \theta) \cdot P(\theta) θMAP=θargmax P(θ∣X)=θargmax P(X∣θ)⋅P(θ)(因为分母项与 θ \theta θ无关) -
贝叶斯预测:
p ( x ∣ X ) = ∫ θ p ( x , θ ∣ X ) d θ = ∫ θ p ( x ∣ θ ) p ( θ ∣ X ) d θ \begin{aligned} p(x \mid X)&= \int_{\theta} p(x, \theta \mid X) d \theta\\ & =\int_{\theta} p(x \mid \theta) p(\theta \mid X) d \theta \end{aligned} p(x∣X)=∫θp(x,θ∣X)dθ=∫θp(x∣θ)p(θ∣X)dθ( x x x新的样本,也就是要预测的样本)
(把 X X X和 x x x的直接关系解构成 X X X和 θ \theta θ, θ \theta θ和 x x x的关系)
-
-
高斯分布(Gaussian distribution)
- 实数上最常用的分布就是正态分布(normal distribution),也称为高斯分布: N ( x ; μ , σ 2 ) = 1 2 π σ 2 exp ( − 1 2 σ 2 ( x − μ ) 2 ) \mathcal{N}\left(x ; \mu, \sigma^{2}\right)=\sqrt{\frac{1}{2 \pi \sigma^{2}}} \exp \left(-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right) N(x;μ,σ2)=2πσ21exp(−2σ21(x−μ)2)
- 正态分布可以推广到 R n \mathbb{R}^{n} Rn空间,这种情况下被称为多维正态分布(multivariate normal distribution): N ( x ; μ , Σ ) = 1 ( 2 π ) n det ( Σ ) exp ( − 1 2 ( x − μ ) ⊤ Σ − 1 ( x − μ ) ) \mathcal{N}(x ; \mu, \Sigma)=\sqrt{\frac{1}{(2 \pi)^{n} \operatorname{det}(\Sigma)}} \exp \left(-\frac{1}{2}(x-\mu)^{\top} \Sigma^{-1}(x-\mu)\right) N(x;μ,Σ)=(2π)ndet(Σ)1exp(−21(x−μ)⊤Σ−1(x−μ))(参数是一个正定对称矩阵 Σ \Sigma Σ)
-
待补充。。。
看了个大概,没有系统性的学习,后续遇到再来补充,最懒康氏懒狗快速学习法(AnoI)。