python实战+数据分析+决策树

本文介绍了如何运用Python的sklearn库中的DecisionTreeClassifier,通过训练集train.csv和测试集test.csv来预测泰坦尼克号乘客的生存率。在构建决策树时,选择了ID3算法,即设置criterion参数为'entropy'。文章还简述了ID3和CART决策树的区别,并展示了预测模型的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

利用决策树预测泰坦尼克号乘客的生存率

数据集来源:https://github.com/cystanford/Titanic_Data

主要包括两部分数据:训练集train.csv 和测试集 test.csv

运用sklearn中运用DecisionTreeClassifier 分类器来进行预测

到目前为止,sklearn 中只实现了 ID3 与 CART决策树,

在构造 DecisionTreeClassifier 类时,其中有一个参数是 criterion,意为标准。它决定了构造的分类树是采用 ID3 分类树,还是 CART分类树,对应的取值分别是 entropy 或者 gini:

  • entropy: 基于信息熵,也就是 ID3 算法实际结果与 C4.5 相差不大;
  • gini:默认参数,基.于基尼系数。CART 算法是基于基尼系数做属性划分的,所以criterion=gini 时,实际上执行的是 CART决策树

在这里创建的是 ID3 分类树。

该预测模型预测过程可用下图进行描述

 

# -*- coding: utf-8 -*-
"""
Created on Thu Mar 14 14:33:16 2019

@author: Administrator
"""
#利用决策树的方法预测泰坦尼克号乘客的生存率
from  sklearn.tree import DecisionTreeClassifier
import pandas as pd 
from sklearn.feature_extract
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值