散记知识点
——“继续学习经典分类算法”
3. 贝叶斯分类法(Naive Bayesian)
贝叶斯分类法是统计学分类方法,基于贝叶斯定理。朴素贝叶斯分类法可以与决策树和经过挑选的神经网络分类器相媲美。用于大型数据库,贝叶斯分类法也表现出高准确率和高速度。
3.1 贝叶斯定理
设数据元组XX有 个属性,给定XX的 个属性值已知的条件下,XX被认定为类别 的概率为P(C|X)P(C|X),称为后验概率也即我们要求的概率。
P(X)、P(C)P(X)、P(C)称为先验概率,其中P(X)P(X)可以用XX出现的概率来估计。比如,在顾客集合中,年龄为35岁且收入为4万美元的概率。 为类别的先验概率,可以用类CC在整个数据集出现的频率来估计。
是在类别为CC的条件下, 的后验概率。例如,已知类别为顾客XX购买计算机,则 的年龄为35岁收入为4万元的概率。
根据已知数据集DD,我们可以得到
,则在给定一个新的数据元组XX,来判断它是否属于某类的概率为
:(例如,已知年龄为30岁收入为3万美元顾客,则他会购买计算机的概率为:)
即为贝叶斯公式。
3.2 朴素贝叶斯分类
朴素贝叶斯分类法有个前提条件:为了简化运算,假设在给定类别CC的条件下,每个属性相互独立。这一假设称为类条件独立性,大大简化的计算量,故被称为“朴素”贝叶斯分类。
朴素贝叶斯分类的主要过程如下:
(1) 数据集 中,每个数据元组XX有 个属性A1,A2,...,AnA1,A2,...,An的属性值组成:X={ x1,x2,...,xn}X={ x1,x2,...,xn}。同时,有mm个类 。
(2) 给定数据元组XX,使用贝叶斯定理预测 属于使得P(