分类算法家族
决策树
ID.3、C4.5、C5.0
CART(Classification and Regression Tree, 分类回归树)
元模型
Bagging、Boosting、随机森林
贝叶斯
朴素贝叶斯、贝叶斯网络
懒惰算法
knn
决策树的庐山面目
根节点
一棵决策树只有一个根节点
叶节点
中间节点
二叉树和多叉树
二叉树:每个节点最多有两个分支
多叉树:每个节点不止有两个分支
体现了对样本数据不断分组过程
构建策略————有监督学习
有监督学习和无监督学习的区别
分类和聚类
样本分成两部分
训练数据集:用于建模
测试数据集:用于验证
决策树的构建
树的生长
采用分而治之的策略
选变量的顺序:如何从众多决策变量中选择一个当前最佳的决策变量;
最佳分离点在哪:如何从分组比变量的众多取值中找到一个最佳的分割点;
树的修剪
避免过度拟合:过于个性化、失去了一般化
算法分类
ID3
信息增益
没有修剪
C4.5
信息增益率
悲观剪枝法
C5.0
信息增益率
自适应增强
CART(分类回归树)
基尼指数
“代价复杂度”剪枝法
分裂指标
ID3
熵
分裂后的总熵
信息增益
C4.5
分裂信息
信息增益率
CART
基尼系数
准确性评价
评价模型的方式要考虑模型在所有分类中识别出某个分类的能力。对感兴趣的分类称为阳性(Positive)其它的类别称为阴性(negative)
混淆矩阵
指标
正确率、错误率
灵敏度(召回率、覆盖率)
特异性
ROC曲线和AUC
横轴:1-