第五章（3）分类：贝叶斯分类器

最新推荐文章于 2023-02-05 23:23:22 发布

Lang Grass

最新推荐文章于 2023-02-05 23:23:22 发布

阅读量865

点赞数

分类专栏：数据挖掘导论

本文链接：https://blog.youkuaiyun.com/u013103305/article/details/83307698

版权

数据挖掘导论专栏收录该内容

17 篇文章

订阅专栏

本文探讨了贝叶斯分类器的基本原理，包括朴素贝叶斯和贝叶斯信念网络，解释了它们如何通过概率关系建模处理不确定性，以及在现实世界数据中的应用。讨论了属性条件独立假设的重要性，以及在训练数据不足时如何使用m估计来提高模型的健壮性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在一些情况中，属性和类之间的关系是不确定的，产生这种情况的原因可能是噪声或是其他因素，所以，引入对属性集和类的概率关系的建模，即贝叶斯分类器，两种：朴素贝叶斯和贝叶斯信念网络
贝叶斯定理：先验知识在现实中的概率实现
贝叶斯定理在分类中的应用：在现实，它允许我们用先验概率、类条件概率、证据来表示后验概率，所以对类条件概率的估计就由朴素贝叶斯和贝叶斯信念网络来实现
朴素贝叶斯：
1. 前提是假设属性之间条件独立
2. 有了条件独立，条件之间的组合概率可以不用计算，直接连乘得到，对给定的类y，计算每一个属性组合的条件概率即可（或者一起求出来）；对于所有y，p（x）是固定的，所以不用求
  1. 估计分类属性的条件概率：即条件下的概率
  2. 估计连续属性的条件概率：
    1. 把连续属性离散化，将连续属性转化成序数属性
    2. 假设连续变量服从某种概率分布，然后使用其参数
3. 条件概率的m估计：在现实中，如果一个属性的类条件概率为0，则整个类的后验概率为0，且在训练记录较少时，这种情况很容易发生，这时朴素贝叶斯无法使用，只有加入m估计，是一种更加健壮的概率估计方法
4. 朴素贝叶斯分类器的特征：
  1. 面对孤立的噪声点，朴素贝叶斯分类器是健壮的
  2. 面对无关属性，朴素贝叶斯分类器是健壮的
  3. 相关属性可能会降低朴素贝叶斯分类器的性能（因为假设不成立，连乘不成立）
贝叶斯误差率：在已知类的前提下，犯I类错误的概率，在多个类的交界处，其总误差率为贝叶斯误差率，在这其中作的决定都有可能是错误的，但是是可以被计算的也是可以被接受的。
贝叶斯信念网络：不要求给定类的所有属性都条件独立，而是指定那些属性条件独立
1. 模型表示：贝叶斯信念网络BBN（一个有向无环图，一个概率表）
  1. 条件独立：贝叶斯网络中的一个结点，如果它的父母结点已知，则它条件独立于它的所有非后代结点
  2. 概率表：即父母结点的条件概率
2. 建立模型：两个步骤
  1. 创建网格结构
  2. 估计每一个结点的概率表中的概率值
  3. 算法保证生成的拓扑图不包含环，不可以存在一条弧从低序结点指向高序结点
  4. 简化方法：将变量分为原因变量和结果变量，从各原因变量向对应的结果变量画弧
  5. 概率的确定比较简单，即朴素贝叶斯理论（朴素贝叶斯假设属性是同级的，没有父子关系，而现实中条件之间的父子关系其实是常见的）
3. 使用BBN举例
4. BBN的特点：
  1. BBN是一种用图形模型来获取特定领域的先验知识的方法
  2. 构建网络开销大，但是一旦确定添加新变量会变得简单
  3. 贝叶斯网络可以处理属性或前提不完整的数据
  4. 因为数据和先验知识以概率的方式结合起来了，所以贝叶斯网络对模型的过分拟合问题是非常稳健的