频率派和贝叶斯派-机器学习-白板推导笔记1
所有内容均为从www.bilibili.com/video/av70839977的视频课中总结,并添加了一些浅薄的个人理解。本人小白,如有错误,欢迎指正。
参数简介:
X:data→X=(x1,x2,⋯ ,xn)T=[x11x12⋯x1px21x22⋯x2p⋮⋮⋮xn1xn2⋯xnp]X:data \to X=(x_1,x_2,\cdots,x_n)^T=\begin{bmatrix}
x_{11}&x_{12}&\cdots&x_{1p}\\
x_{21}&x_{22}&\cdots&x_{2p}\\
\vdots&\vdots&&\vdots\\
x_{n1}&x_{n2}&\cdots&x_{np}
\end{bmatrix}X:data→X=(x1,x2,⋯,xn)T=⎣⎢⎢⎢⎡x11x21⋮xn1x12x22⋮xn2⋯⋯⋯x1px2p⋮xnp⎦⎥⎥⎥⎤θ:parameter\theta :parameterθ:parameter概率模型:x∼p(x∣θ)概率模型:x\sim p(x|\theta)概率模型:x∼p(x∣θ)
频率派
θ:未知的常量,x服从一定的概率分布,是随机变量。\theta:未知的常量,x服从一定的概率分布,是随机变量。θ:未知的常量,x服从一定的概率分布,是随机变量。θMLE=arg maxθlogP(X∣θ)\theta_{MLE}=\argmax \limits_\theta \log^{P(X|\theta)}θMLE=θargmaxlogP(X∣θ)
频率派研究的问题:统计机器学习,最后是一个优化问题。先设计模型,再找lossfunction,最后利用algorithm求解。
贝叶斯派
θ:是随机变量服从一定的概率分布θ∼P(θ),P(θ)是先验\theta :是随机变量服从一定的概率分布 \theta \sim P(\theta),P(\theta)是先验θ:是随机变量服从一定的概率分布θ∼P(θ),P(θ)是先验
贝叶斯公式:P(θ∣X)=P(X∣θ)P(θ)P(X)∝P(X∣θ)P(θ),其中P(X)=∫θP(X∣θ)P(θ)dθP(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)}\propto P(X|\theta)P(\theta),其中P(X)=\int_\theta P(X|\theta)P(\theta)d\thetaP(θ∣X)=P(X)P(X∣θ)P(θ)∝P(X∣θ)P(θ),其中P(X)=∫θP(X∣θ)P(θ)dθP(X∣θ):似然,P(θ):先验,P(θ∣X)后验P(X|\theta):似然,P(\theta):先验,P(\theta|X)后验P(X∣θ):似然,P(θ):先验,P(θ∣X)后验
MAP(最大后验估计):θMAP=arg maxθP(θ∣X)=arg maxθP(X∣θ)P(θ)\theta_{MAP}=\argmax \limits_\theta P(\theta|X)=\argmax \limits_\theta P(X|\theta)P(\theta)θMAP=θargmaxP(θ∣X)=θargmaxP(X∣θ)P(θ)
MAP不是标准的贝叶斯估计,标准贝叶斯估计如下:P(θ∣X)=P(X∣θ)P(θ)∫θP(X∣θ)P(θ)dθ(这个积分很难求)P(\theta|X)=\frac{P(X|\theta)P(\theta)}{\int_\theta P(X|\theta)P(\theta)d\theta}(这个积分很难求)P(θ∣X)=∫θP(X∣θ)P(θ)dθP(X∣θ)P(θ)(这个积分很难求)
贝叶斯预测:已知X,现有一个新数据x~,求P(x~∣X)已知X,现有一个新数据\widetilde{x},求P(\widetilde{x}|X)已知X,现有一个新数据x,求P(x∣X)
P(x~∣X)=∫θP(x~,θ∣X)dθ=∫θP(x~∣θ)P(θ∣X)dθP(\widetilde{x}|X)=\int_\theta P(\widetilde{x},\theta|X)d\theta=\int_\theta P(\widetilde{x}|\theta)P(\theta|X)d\thetaP(x∣X)=∫θP(x,θ∣X)dθ=∫θP(x∣θ)P(θ∣X)dθ这就是为什么我们要求后验概率。
贝叶斯派研究的问题:概率图模型,最后是一个求积分问题(可以用蒙特卡洛模拟来求解)。