数据挖掘 第四章 分类:基本概念、决策树与模型评估

本文详细介绍了决策树的构建过程,包括Hunt算法、CART、ID3等方法,以及如何选择最佳划分的度量如Gini指数和熵。讨论了过拟合的原因和解决方案,如预剪枝、后剪枝,同时概述了模型评估的策略,如交叉验证和验证集。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第四章

1. 分类技术

  • Decision Tree based Methods
  • Rule-based Methods
  • Memory based reasoning
  • Neural Networks
  • Naïve Bayes and Bayesian Belief Networks
  • Support Vector Machines

2. 如何建立决策树

  • Hunt算法
    • 定义:
      • 如果Dt中所有记录都属于同一个类y_t,则t是叶节点,用y_t标记
      • 如果Dt中包含属于多个类的记录,则选择一个属性测试条件,将记录划分成较小的子集,递归地调用该算法。
    • 对于hunt算法有两种特殊的cases需要额外处理
      • 一些孩子节点是空的
      • 与Dt相关联的所有记录都具有相同的属性值(目标属性除外)
    • 方法:贪心算法
    • 设计问题:
      • 如何分裂训练记录
        • 条件(依赖于属性类型)
        • 二元or多路划分
      • 如何停止分裂过程
  • CART
  • ID3
  • SLIQ,SPRINT

3. 不同类型的属性指定测试条件的方法

  • 标称属性:
    • 多路划分
    • 二元划分(通过属性值分组)
  • 序数属性:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值