本篇文章是根据视频( link.)所作的学习笔记,旨在对机器学习的相关知识更好的理解和巩固。本人基础较弱,推导中看不懂的公式可能会细究,如果有理解不当之处也欢迎指出。
频率派VS贝叶斯派
当概率引入到机器学习中,可以分为频率派和贝叶斯派进行讨论。
-频率派认为数据的分布是未知固定的,对应于统计机器学习的知识,主要实现对模型的优化(建立概率或非概率模型、设置模型的LOSS函数,求解损失函数优化模型)。
-贝叶斯派则认为数据的分布是未知不固定的,借助一定的先验知识去寻求符合数据最优的分布。通常建立概率图模型,涉及到积分问题的求解。
假设 d a t a data data为 X = ( x 1 , x 2 , . . . , x n ) T X=(x_1,x_2,...,x_n)^T X=(x1,x2,...,xn)T,并假设X服从某种参数为 θ \theta θ的概率模型分布 X ∼ P ( X ∣ θ ) X\sim P(X|\theta) X∼P(X∣θ),求解其中的参数 θ \theta θ是为了找到一个合适的参数值或分布来使数据 X X X出现的概率更大。由于频率派和贝叶斯派在数据分布上的区别,其对应的参数 θ \theta θ 求解有很大不同,分为极大似然估计MLE和最大后验概率MAP。
MLE和MAP
-极大似然估计MLE
在频率派中,把参数
θ
\theta
θ看作是一个未知的常量进行求解,且
θ
\theta
θ全部来自于观测数据X:
θ
M
L
E
=
arg max
θ
P
(
X
∣
θ
)
=
arg max
θ
L
o
g
P
(
X
∣
θ
)
\theta_{MLE}=\argmax\limits_\theta P(X|\theta)=\argmax\limits_\theta LogP(X|\theta)
θMLE=θargmaxP(X∣θ)=θargmaxLogP(X∣θ)
(这里是假设
x
i
x_i
xi之间独立同分布,有
P
(
X
∣
θ
)
=
∏
i
=
1
n
P
(
x
i
∣
θ
)
P(X|\theta)=\prod_{i = 1}^{n}P(x_i|\theta)
P(X∣θ)=∏i=1nP(xi∣θ),所以两边同时加上Log变成连加来防止连乘结果的溢出)
-最大后验概率MAP
在贝叶斯派里,不把参数
θ
\theta
θ看作是一个固定的常量,而是服从一定的分布。在求解
θ
\theta
θ时,除了观测数据X外,还要加上一定的先验知识
P
(
θ
)
P(\theta)
P(θ)。通过贝叶斯公式可以得到求解参数公式为:
P
(
θ
∣
X
)
=
P
(
X
∣
θ
)
P
(
θ
)
P
(
X
)
∝
P
(
X
∣
θ
)
P
(
θ
)
θ
M
A
P
=
arg max
θ
P
(
θ
∣
X
)
=
arg max
θ
P
(
X
∣
θ
)
P
(
θ
)
P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)}\propto P(X|\theta)P(\theta)\\ \\ \theta_{MAP}=\argmax\limits_\theta P(\theta|X)=\argmax\limits_\theta P(X|\theta)P(\theta)
P(θ∣X)=P(X)P(X∣θ)P(θ)∝P(X∣θ)P(θ)θMAP=θargmaxP(θ∣X)=θargmaxP(X∣θ)P(θ)
(这里能写成正比于的原因是分母与
θ
\theta
θ无关)
其中,
P
(
θ
)
P(\theta)
P(θ)称为先验概率,
P
(
X
∣
θ
)
P(X|\theta)
P(X∣θ)称为似然概率,
P
(
θ
∣
X
)
P(\theta|X)
P(θ∣X)称为后验概率。
-MLE和MAP的联系
通过公式可以看出,二者在
θ
\theta
θ求解中的不同在于贝叶斯派中多了一个先验概率
P
(
θ
)
P(\theta)
P(θ),判断是MLE还是MAP要先确定所求的
θ
\theta
θ,(不一定是分布中的参数,而是所求的数据,也可以是y…)。当数据的先验分布
θ
\theta
θ服从均匀分布,即
P
(
θ
)
=
1
P(\theta)=1
P(θ)=1时,MAP约等于MLE的结果。
推荐学习资料
up主给大家推荐了一些机器学习的相关资料。
书籍——李航,统计学习方法;周志华;机器学习(西瓜书);PRML;MLAPP; ESL; Deep Learning
视频——林轩田,机器学习基石和技法;张志华,机器学习导论and统计机器学习;吴恩达,CS229; 徐亦达,概率模型;李宏毅,ML 2017,MLDS 2018
第一次写博文,对我来说是个不小的挑战,内容尚不完善,阅读的人还需多加包容。希望自己能够坚持学习坚持更新,不断吸收消化,逐渐高质量产出。