生成学习算法:对
p
(
x
,
y
)
p(x,y)
p(x,y)进行建模,具体是
p
(
y
)
p(y)
p(y)和
p
(
x
∣
y
)
p(x|y)
p(x∣y)
预测的时候,利用贝叶斯公式:
- 高斯判别分析
特点: input features x是连续的
使用多变量高斯分布对 p ( x ∣ y ) p(x|y) p(x∣y)进行建模
具体来说:
可以看到,两个多变量高斯分布的均值向量不同,但是协方差矩阵是一样的。
然后对数据进行对数极大似然估计:
得到极大似然参数估计:
扩展:
高斯判别分析和logistic regression
高斯判别分析可以写成下面的形式,和logistic regression形式一样。
GDA做了更强的假设, p ( x ∣ y ) p(x|y) p(x∣y)服从多变量高斯分布,均值向量不同,协方差矩阵相同。而logistic regression没有做任何假设。因此,当高斯分布的假设正确的时候,使用GDA更好,否则使用logistic regression.
- 朴素贝叶斯分类器
特点:input features x是离散的
为何朴素?------做了特征条件独立假设
极大似然估计:
得到:
上面是二值特征,即每个特征非0即1。
当特征的取值可以取多个的时候,
p
(
x
i
∣
y
)
p(x_i|y)
p(xi∣y)是多项式分布。
当特征是连续值的时候,可以将连续特征离散化。
拉普拉斯平滑:
未引入拉普拉斯平滑会出现的问题:
p
(
x
i
=
a
∣
y
)
p(x_i=a|y)
p(xi=a∣y)为0,如果在训练集中
x
i
=
a
x_i=a
xi=a未出现过。
扩展:
朴素贝叶斯模型在很多问题上都表现得不错。前面用于文本分类中,每个特征取值为0或1,为1表示出现在文档中,为0表示不出现在文档中。每个特征是伯努利分布。
还可以多项式分布,每次生成一个词的时候,扔骰子决定(骰子的面数是词汇个数)