思路:
- 之前的线性回归都是根据特征值服从的分布猜想结果,生成算法是根据结果猜想特征值的分布。
贝叶斯公式:
GDA高斯分类器:
模型:
写成表达式的形式:
分离效果图:
推理:
原理:根据上述表达式的形式和最大似然原理,我们要求出这两个高斯分布,使给出的case最大限度的符合。
写成表达式的形式:
原因:为什么要求p(y|x)的最大似然:
因为我们是要求给出X后预测
Y ,因此我们要求给出x下y的最可能出现的情况下的θ。根据贝叶斯公式:
GDA and Logistic 回归:
如果p(x|y;θ) 服从高斯分布,可以推出:p(y=1|x;θ)服从Logistic 回归。即:
反之不一定成立。
朴素贝叶斯分类:
应用:
- 主要用于文本分类
模型1:
只考虑单词在词典中出不出现,没有考虑一个单词出现的频率。
将文本分词处理,得到特征值向量(整个词汇表):
0表示该次在这个case中没出现,1表示出现那么该case出现的概率:
模型中的参数:
- 对于第i个特征值,有它在
y=1 时出现的概率,y=0时出现的概率 - 还有y=1 出现的概率
所以:
- ϕi|y=1=p(xi=1|y=1)
- ϕi|y=0=p(xi=1|y=0)
- ϕy=p(y=1)
- 对于第i个特征值,有它在
joint(联合)最大似然估计:
解:
就是样本出现的频率。如 ϕy=p(y=1) ,就是y=1占样本空间的比例
根据参数我们可以写出预测:
Laplace smoothing
当一个单词从未出现的时候,进行预测的时候参数可能为0
即:
解决方法:
模型2
- 考虑单词出现的频率
条件:
- 词典V,长度记为:|V|
- 样本X = {
x1,x2,.....xni } , 每个样本的长度可以不一样,为ni。
其中:xi = k, 表示该特征值为字典中的第k 个单词 - 结果y任然为0,1
联合最大似然函数:
表示:
求解:
分子含义:第
k 个单词在y=1中出现的次数
分母含义:y=1的样本的总长度(每个样本的长度可以不一样)应用Laplace smoothing: