1.决策树概念及应用场景
- 决策树概念
决策树是一种以树型结构形式表达的预测分析模型,一般一棵决策树包含一个根节点、若干个内部节点和叶节点;叶节点对应决策结果,其他每个节点对应于一个属性;每个节点包含的样本集合根据属性测试被划分到子节点中;根节点包含样本全集,从根节点到每个叶节点的路径对应了一个判定测试序列。
决策树种类有两种:分类树–对离散变量做决策树;回归树–对连续变量做决策树。 决策树常常用来解决分类和回归问题,在实际工作中基本应用于给人群分类,最好的应用场景是要把人群分为互斥的两类,并找到两类人群的不同特征。
2.决策树原理
决策树主要分为两部分:创建决策树、使用决策树模型进行预测,如下图所示。
熵
信息增益
信息增益率
基尼指数
最小方差
3. 示例:
年龄
性别:
(3)收入
(4)婚姻
如何确定第一个分支
4.剪枝
5.Python做决策树步骤
1)建立树模型
2)剪枝
3)输出结果
以分类树为基准:
各个参数的意思
重要参数和剪枝
##6. SHAP
:决策树一般用于变量选择,决策树是后续学习随机森林的基础。
代码部分实操:
#获取数据
from sklearn.tree import DecisionTreeClassifier
import numpy as np
import pandas as pd
import matplotlib.