概率
先验概率:根据以前的经验,提前知道的事件概率;如:今天下雨的概率;
后验概率:由果及因,后知后觉,概率时间的结果推测原因起作用的概率;如,今天下雨,求有乌云的概率;
似然概率:由因及果,似然likehood自然的推测,都是知道原因,求原因造成结果发生的概率。如:今天阴天,求下雨的概率。
基本概率公式
加法规则: P ( x ) = ∑ y P ( x , y ) P(x)=\sum_{y}{P(x,y)} P(x)=∑yP(x,y)
乘法规则: P ( x , y ) = P ( x ) P ( y ∣ x ) P(x,y)=P(x)P(y|x) P(x,y)=P(x)P(y∣x)
全概率公式: P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B)=\sum_{i=1}^{n}P(A_{i})P(B|A_{i}) P(B)=∑i=1nP(Ai)P(B∣Ai)
似然函数
似然函数是一种关于统计模型参数的函数。给定输出时,关于参数
θ
\theta
θ的似然函数
L
(
θ
∣
x
)
L(\theta|x)
L(θ∣x)等于给定参数
θ
\theta
θ后变量
x
x
x的概率。
离散:
L
(
θ
∣
x
)
=
P
(
X
=
x
∣
θ
)
L(\theta|x)=P(X=x|\theta)
L(θ∣x)=P(X=x∣θ)
连续:
L
(
θ
∣
x
)
=
f
θ
(
x
)
=
f
(
x
∣
θ
)
L(\theta|x)=f_{\theta}(x)=f(x|\theta)
L(θ∣x)=fθ(x)=f(x∣θ),
f
(
x
∣
θ
)
f(x|\theta)
f(x∣θ)不是条件概率密度函数。
概率描述了已知参数时的随机变量的输出结果。
似然则是用来描述已知随机变量输出结果时,未知参数的可能取值。
在统计学中,似然函数是一种关于统计模型参数的函数,表示模型参数的似然性。
贝叶斯公式
假设随机变量X表示数据,随机变量
θ
\theta
θ表示模型参数,计算后验概率
P
(
θ
,
X
)
P(\theta,X)
P(θ,X):
P
(
θ
,
X
)
=
P
(
θ
)
P
(
X
∣
θ
)
P
(
X
)
=
P
(
θ
)
P
(
X
∣
θ
)
∑
θ
P
(
X
,
θ
)
=
P
(
θ
)
P
(
X
∣
θ
)
∑
θ
P
(
θ
)
P
(
X
∣
θ
)
P(\theta,X)=\frac{P(\theta)P(X|\theta)}{P(X)}=\frac{P(\theta)P(X|\theta)}{\sum_{\theta}P(X,\theta)}=\frac{P(\theta)P(X|\theta)}{\sum_{\theta}P(\theta)P(X|\theta)}
P(θ,X)=P(X)P(θ)P(X∣θ)=∑θP(X,θ)P(θ)P(X∣θ)=∑θP(θ)P(X∣θ)P(θ)P(X∣θ)
其中 P ( θ ) P(\theta) P(θ)是先验概率, P ( D ∣ θ ) P(D|\theta) P(D∣θ)是似然函数。
贝叶斯统计的估计
∙
\bullet
∙ 确定
θ
\theta
θ的先验分布密度:
P
(
θ
)
P(\theta)
P(θ);
∙
\bullet
∙ 样本独立同分布,且已知样本密度形式
P
(
x
∣
θ
)
P(x|\theta)
P(x∣θ), 样本集的联合分布
P
(
x
∣
θ
)
=
∑
i
=
1
n
P
(
x
i
∣
θ
)
P(x|\theta)=\sum_{i=1}^{n}P(x_{i}|\theta)
P(x∣θ)=∑i=1nP(xi∣θ)
∙
\bullet
∙ 利用贝叶斯公式求
θ
\theta
θ后验概率:
P
(
θ
∣
x
)
=
P
(
x
∣
θ
)
P
(
θ
)
∫
θ
θ
P
(
θ
∣
x
)
d
θ
P(\theta|x)=\frac{P(x|\theta)P(\theta)}{\int_{\theta}\theta P(\theta|x)d\theta}
P(θ∣x)=∫θθP(θ∣x)dθP(x∣θ)P(θ)
∙
\bullet
∙ 求贝叶斯的估计量
θ
∗
=
∫
θ
θ
P
(
θ
∣
x
)
d
θ
=
∫
θ
P
θ
(
x
)
d
θ
\theta^{*}=\int_{\theta}\theta P(\theta|x)d\theta=\int_{\theta}P_{\theta}(x)d\theta
θ∗=∫θθP(θ∣x)dθ=∫θPθ(x)dθ
模型学习
- 适用条件是什么?
- 解决什么问题?
- 对应的统计学习三要素?
统计学习的三要素:
假设空间:包含所有可能的条件概率分布或决策函数。
策略:按照什么样的准则学习或选择最优模型。(损失函数)
求解算法:使用什么样的计算方法求解最优模型。(求解参数)
在监督学习中,概率模型是生成模型;非概率模型是判别模型。
监督学习的实现步骤
- 得到一个有限数据集和;
- 确定模型的的假设空间,即所有的备选模型;
- 确定模型选择的准则,即学习策略;
- 实现求解最优化模型的算法;
- 通过学习方法选择最优模型;
- 利用学习的最优模型对新数据进行预测或分析。
训练集:
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
…
,
(
x
n
,
y
n
)
}
T=\{(x_1,y_1), (x_2,y_2),\ldots,(x_n,y_n)\}
T={(x1,y1),(x2,y2),…,(xn,yn)}
实例
x
x
x的特征向量:
x
=
(
x
(
1
)
,
x
(
2
)
,
…
,
x
(
n
)
)
T
x=(x^{(1)},x^{(2)},\ldots,x^{(n)})^T
x=(x(1),x(2),…,x(n))T
模型:
7. 决策函数:
Y
=
f
(
x
)
Y=f(x)
Y=f(x)
预测形式:
y
=
f
(
x
)
y=f(x)
y=f(x)
8. 条件概率分布:
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)
预测形式:
a
r
g
m
a
x
(
P
(
y
∣
x
)
)
argmax(P(y|x))
argmax(P(y∣x))