先验概率, 后验概率, 似然函数, 证据因子
理论
假设有变量
x
x
x和
y
y
y,
x
x
x表示特征,
y
y
y表示我们关心的变量, 可以是分类变量或者连续变量. 那么, 关于
y
y
y的先验概率为
p
(
y
)
p(y)
p(y), 关于
y
y
y的后验概率为
p
(
y
∣
x
)
p(y|x)
p(y∣x), 似然函数为
p
(
x
∣
y
)
p(x|y)
p(x∣y), 证据因子
p
(
x
)
p(x)
p(x), 根据全概率公式和贝叶斯公式可以得到它们之间的关系, 预先假设
y
y
y有
m
m
m种取值:
(1)
p
(
y
i
∣
x
)
=
p
(
x
,
y
i
)
p
(
x
)
=
p
(
x
∣
y
i
)
p
(
y
i
)
p
(
x
)
=
p
(
x
∣
y
i
)
p
(
y
i
)
∑
j
=
1
m
p
(
x
∣
y
j
)
p
(
y
j
)
,
(
1
≤
i
≤
m
)
\begin{aligned} p(y_i|x) &= \frac{p(x,y_i)}{p(x)} \\ &= \frac{p(x|y_i)p(y_i)}{p(x)} \\ &= \frac{p(x|y_i)p(y_i)}{\sum_{j=1}^{m}{p(x|y_j)p(y_j)}}, (1 \leq i \leq m) \tag{1} \end{aligned}
p(yi∣x)=p(x)p(x,yi)=p(x)p(x∣yi)p(yi)=∑j=1mp(x∣yj)p(yj)p(x∣yi)p(yi),(1≤i≤m)(1)
根据训练样本(包含特征
和类别
), 无法直接求出后验概率, 后验概率需要通过似然函数和先验概率间接求得.
注意: 这里的先验概率和后验概率是相对的, p ( x ) p(x) p(x)也可以是先验概率, p ( x ∣ y ) p(x|y) p(x∣y)为后验概率, 只是相对于 x x x而已.
例子
假设 x x x表示特征, 特征取值范围有: { 阴 天 , 晴 天 } \{阴天, 晴天\} {阴天,晴天}, y y y表示分类, 取值范围有: { 下 雨 , 不 下 雨 } \{下雨, 不下雨\} {下雨,不下雨}. 现在我们根据"是否阴天"这个随机变量 x x x的观测样本数据(特征样本), 来判断是否会下雨.
根据历史经验估计,
-
下雨的概率为20%, 可得到先验概率 p ( y = 下 雨 ) = 0.2 p(y=下雨)=0.2 p(y=下雨)=0.2
-
阴天时下雨的概率为70%, 可得到后验概率为 p ( y = 下 雨 ∣ x = 阴 天 ) = 0.7 p(y=下雨|x=阴天) = 0.7 p(y=下雨∣x=阴天)=0.7
根据现有训练样本可以求得:
下雨
表现为阴天
的概率记为 p ( x = 阴 天 ∣ y = 下 雨 ) p(x=阴天|y=下雨) p(x=阴天∣y=下雨), 可以解释如下:下雨
表现为阴天
的可能性(likelihood)- 估计的先验概率