机器学习基础——分类算法之决策树、随机森林、Titanic乘客生存分类

本文介绍了决策树的基本概念,如信息增益、熵和分类依据,并展示了如何使用sklearn实现。通过泰坦尼克号乘客生存数据集,详细演示了数据预处理、特征工程和模型训练过程。接着讨论了决策树的优缺点,提出改进方法如随机森林,并介绍了随机森林的工作原理、API使用和超参数调优。最后,总结了随机森林的优点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1 认识决策树

1.1 信息增益、信息熵的计算

1.2 举例计算​编辑

 1.3 决策树的分类依据

 1.4 sklearn决策树API

2 泰坦尼克号乘客生存分类

2.1 案例背景

2.2  数据描述

2.3 步骤分析

2.4 代码实现

2.4.1 调入包

2.4.1 数据处理

2.4.2 估计器流程

2.4.3 导出决策树的结构

3 决策树的优缺点及改进

 4 集成学习方法——随机森林

4.1 集成学习方法

 4.2 随机森林 

4.3 随机森林建立多个决策树过程

4.4 随机森林API

4.5 随机森林进行预测(超参数调优)

4.6 随机森林的优点

                                    

1 认识决策树

1.1 信息增益、信息熵的计算

1.2 举例计算

 1.3 决策树的分类依据

  • ID3 信息增益 最大的准则

  •  C4.5 信息增益比最大的准则

  • CART 回归树:平方误差最小 分类树:基尼系数 在sklearn中可以选择可以划分的默认原则

 1.4 sklearn决策树API

2 泰坦尼克号乘客生存分类

2.1 案例背景

kaggkle决策树案例:泰坦尼克号沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。 造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸存下沉有一些运气因素,但有些人比其他人更容易生存,例如妇女,儿童和上流社会。 在这个案例中,我们要求您完成对哪些人可能存活的分析。特别是,我们要求您运用机器学习工具来预测哪些乘客幸免于悲剧。

数据来源https://www.kaggle.com/c/titanic

2.2  数据描述

我们提取到的数据集中的特征包括票的类别是否存活,乘坐班次,年龄,登陆home.dest,房间,船和性别等

经过观察数据得到:

  • 1 乘坐班是指乘客班(1,2,3),是社会经济阶层的代表。
  • 2 其中age数据存在缺失。

2.3 步骤分析

  • 1.获取数据                        pd读取数据
  • 2.数据基本处理
    • 2.1 确定特征值,目标值       选择有影响的特征[年龄]、[阶级]、[性别]
    • 2.2 缺失值处理            fillna()
    • 2.3 数据集划分
  • 3.特征工程(字典特征抽取)   pd转化字典,特征抽取
  • 4.机器学习            决策树估计器流程
  • 5.模型评估

2.4 代码实现

2.4.1 调入包

from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
fro
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值