【学习笔记】《数据挖掘:理论与算法》CH3 从贝叶斯到决策树

本文深入探讨了有监督学习中的分类问题,重点讲解了贝叶斯定理及其在朴素贝叶斯分类中的应用,剖析了条件独立假设的重要性。此外,文章还详细介绍了决策树算法,包括ID3算法的工作原理,以及如何通过计算熵值和信息增益来选择最优属性,同时讨论了决策树的剪枝技术以避免过拟合。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分类问题

  1. 分类是一种有监督的学习
  2. 贝叶斯定理:头痛和流感的关系

朴素贝叶斯分类

  1. 为何朴素?
    需要假设条件独立
  2. 何为条件独立?
    • 肺癌和性别的关系,不能简单说男性得肺癌的概率大于女性,需要考虑得肺癌的条件:抽烟,
      在抽烟的情况下,得肺癌的概率大于不抽烟的情况。
    • 抛硬币问题,一枚正常硬币,一枚双面相同的硬币,抛硬币概率不同。
  3. 独立不等于不相关
  4. 避免出现概率为0?
    拉普拉斯平滑:样本加1
  5. 应用
    文本推荐:统计感兴趣文本中单词出现的概率,当新出现一个文本时,通过计算文本中单词出现的概率,来推测对文本感兴趣的概率。

决策树

  1. 奥卡姆的剃刀:相同效果,选简单的模型
  2. 决策树的选取?
决策树算法

ID3 (Iterative Dichotomizer 3)
迭代划分,确定属性节点,确定停止条件
计算熵值,熵值最大为1,越大越表示不确定
计算信息增益,信息增益越大越好,越能区分 -> 确定属性

剪枝 Pruning
决策树太长:过拟合; 决策树太短:无法分类复杂数据集

软件:
Naive Bayes algorithm for learning to classify text
http://www.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值