1.基础概念
1.1概率
频率派
事件的概率是当我们无限次重复试验时,事件发生次数的比值。
掷骰子、投掷硬币、纸牌游戏等。
概率视为一种主观置信度
明天下雨的概率是50%
1.2乘法法则
A.公式
P(A,B)=P(A)P(B|A)=P(B,A)=P(B)P(A|B)
P(A,B):A、B出现的联合概率
P(A):A出现的概率
P(B|A):A出现的情况下B出现的概率
P(B,A):B、A出现的联合概率
P(B):B出现的概率
P(A|B):B出现的情况下A出现的概率
扩展:当有多个事件时:
P(A,B1,B2,B3)=P(A)P(B1|A)P(B2|A,B1)P(B3|A,B1,B2)
特例:当A、B为独门事件时:
P(A,B)=P(A)P(B)
B.示例
P(Grade = A | Student = Smart) = 0.6,P(Grade = A) = 0.2,P(Student = Smart) = 0.3
P(Student = Smart | Grade = A) = ?
解:P(Student=Smart,Grade=A)=P(Student=Smart) P(Grade=A | Student=Smart)=0.3*0.6=0.18
P(Student=Smart,Grade=A)=P(Grade=A,Student=Smart)=P(Grade = A)P(Student = Smart | Grade = A)=0.2*?=0.18
P(Student = Smart | Grade = A)=0.9
1.2加法法则
A.公式
B.示例
解:设G为成绩,有2种类别:合格/不合格,则题意为x=boy且成绩为合格/不合格的概率,结果为1;
2.朴素贝叶斯分类
2.1特点
统计学模型
基于贝叶斯原理(后验概率 = 先验概率 * 似然度 / 标准化常量) 的分类器
假设前提
给定任一类别, 各个属性之间相互独立
分类性能
与决策树和部分神经网络分类模型相当
2.2原理
给定一个包含输入和输出的训练集, 每个样本表示为n维向量X = (x1, x2, …, xn),假设有 m 个类别, 即C1, C2, …, Cm;
P(Ci|X):朴素贝叶斯分类器的目标是最大化后验概率。
P(Ci):先验概率,可从训练集中计算: si/s;
si为训练集中类别为Ci的样本数,s为训练集的总样本数。
P(X):标准化常量。
P(X|Ci):似然度;
2.3优缺点
优点
实现简便,在较多应用场景中效果好;
缺点
假设“给定每个类别, 属性之间相互独立” , 该假设并不准确;
0概率值的问题: 例如, 测试样本中某个属性的取值在训练数据集中并未出现。 => 拉普拉斯平滑
3.示例:预测客户是否买电脑
设x=年龄<=30,收入=medium,学生=yes,信用等级=fair
P(yes | x) = P(yes) * P(x | yes) / P(x)
P(yes) = 9/14 = 0.64
P(x | yes) = P(年龄<=30 | yes)*P(收入=medium | yes)*P(学生=yes | yes)*P(信用等级=fair | yes)
= 2/9 * 4/9 * 6/9 * 6/9 = 0.04
P(no | x) = P(no) * P(x | no) / P(x)
P(no) = 5/14 = 0.36
P(x | no) = P(年龄<=30 | no)*P(收入=medium | no)*P(学生=yes | no)*P(信用等级=fair | no)
= 3/5 * 2/5 * 1/5 * 2/5 = 0.02
加法法则:P(yes) * P(x | yes) / P(x) + P(no) * P(x | no) / P(x) = 1
P(x) = P(yes) * P(x | yes) + P(no) * P(x | no)
= 0.64 * 0.04 + 0.36 * 0.02 = 0.04
P(no | x) = 0.19
P(yes | x) = 0.80
预测结果:会买电脑
注意:
平滑
计算每个属性联合概率的过程中出现0值,需要使用平滑系数,计算方法:
先验概率平滑:分子 = 原分子 + 平滑系数,分母 = 原分子 + 训练数据的分类总数 * 平滑系数
似然度平滑:分子 = 原分子 + 平滑系数,分母 = 原分子 + 指定属性种类数量 * 平滑系数
磁带朴素贝叶斯分类