利用决策树预测泰坦尼克号乘客的生存率
数据集来源:https://github.com/cystanford/Titanic_Data
主要包括两部分数据:训练集train.csv 和测试集 test.csv
运用sklearn中运用DecisionTreeClassifier 分类器来进行预测
到目前为止,sklearn 中只实现了 ID3 与 CART决策树,
在构造 DecisionTreeClassifier 类时,其中有一个参数是 criterion,意为标准。它决定了构造的分类树是采用 ID3 分类树,还是 CART分类树,对应的取值分别是 entropy 或者 gini:
- entropy: 基于信息熵,也就是 ID3 算法实际结果与 C4.5 相差不大;
- gini:默认参数,基.于基尼系数。CART 算法是基于基尼系数做属性划分的,所以criterion=gini 时,实际上执行的是 CART决策树
在这里创建的是 ID3 分类树。
该预测模型预测过程可用下图进行描述
# -*- coding: utf-8 -*-
"""
Created on Thu Mar 14 14:33:16 2019
@author: Administrator
"""
#利用决策树的方法预测泰坦尼克号乘客的生存率
from sklearn.tree import DecisionTreeClassifier
import pandas as pd
from sklearn.feature_extract