目录
1 认识决策树
1.1 信息增益、信息熵的计算
1.2 举例计算
1.3 决策树的分类依据
-
ID3 信息增益 最大的准则
-
C4.5 信息增益比最大的准则
- CART 回归树:平方误差最小 分类树:基尼系数 在sklearn中可以选择可以划分的默认原则
1.4 sklearn决策树API
2 泰坦尼克号乘客生存分类
2.1 案例背景
kaggkle决策树案例:泰坦尼克号沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。 造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸存下沉有一些运气因素,但有些人比其他人更容易生存,例如妇女,儿童和上流社会。 在这个案例中,我们要求您完成对哪些人可能存活的分析。特别是,我们要求您运用机器学习工具来预测哪些乘客幸免于悲剧。
数据来源:https://www.kaggle.com/c/titanic
2.2 数据描述
我们提取到的数据集中的特征包括票的类别,是否存活,乘坐班次,年龄,登陆home.dest,房间,船和性别等。
经过观察数据得到:
- 1 乘坐班是指乘客班(1,2,3),是社会经济阶层的代表。
- 2 其中age数据存在缺失。
2.3 步骤分析
- 1.获取数据 pd读取数据
- 2.数据基本处理
- 2.1 确定特征值,目标值 选择有影响的特征[年龄]、[阶级]、[性别]
- 2.2 缺失值处理 fillna()
- 2.3 数据集划分
- 3.特征工程(字典特征抽取) pd转化字典,特征抽取
- 4.机器学习 决策树估计器流程
- 5.模型评估
2.4 代码实现
2.4.1 调入包
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
fro