决策树是一个类似于流程图的树结构,分支节点表示对一个特征进行测试,根据测试结果进行分类,树叶节点代表一个类别。
要判断从哪个特征进行分裂,就要对信息进行量化,量化的方式有:
ID3: 信息增益
条件熵:
其中pi=P(X=xi),X,Y代表了两个事件,而它们之间有时有联系的(也就是联合概率分布),条件熵H(Y|X)代表了在一直随机变量X的情况下,Y的不确定性的大小。
信息增益:熵H(Y)和条件熵H(Y|X)的差。定义如下:
I(Y,X)=H(Y)−H(Y|X)
熵越大,事物越不确定,信息增益越大,该特征越适合做分裂点。
C4.5: 信息增益比
CART: 基尼系数
实例:预测泰坦尼克号生存率
a. 数据处理
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
# 数据预处理,丢弃无用数据、处理数据、填充缺失值
def read_dataset(fname):
# 指定第一列为行索引
data = pd.read_csv(fname,index_col=0)
# 丢弃无用数据
data.drop(['Name','Ticket','Cabin'],axis=1,inplace=True)
# 处理性别数据,male为1,female为0
data['Sex']=(data['Sex']=='male').astype(int)
# 处理登船港口数据
labels = data['Embarked'].unique().tolist()
data['Embarked'] = data['Embarked'].apply(lambda s: labels.index(s))
# 处理缺失值
data = data.fillna(0)
return data
train = read_dataset('train.csv')
train.head()
Survived | <
---|