泰坦尼克号幸存者的预测

原创

已于 2024-10-08 12:13:55 修改 · 2.9k 阅读

45 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能

于 2023-01-09 00:49:27 首次发布

机器学习案例：泰坦尼克号幸存者的预测

泰坦尼克号幸存者预测是机器学习的经典案例，其涉及了众多机器学习会遇到的问题，回归难度也比较大。本次数据集来自kaggle，可从该地址https://www.kaggle.com/competitions/titanic/data自行下载。数据集格式为csv

引入需要调取的库

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
import numpy as np

处理数据集

数据集长下面这个样子

在这里插入图片描述

引入数据集

data = pd.read_csv('D:\\编程\\python_work\\train.csv')
print(data.info())  # 调出data数据信息
print(data.head(5))  # 调取前n行列表

在这里插入图片描述
该表为数据集的信息
从表中可以看出以下三个问题：
1、数据集中很多特征与幸存者数量相关性不大因此筛选特征以此提高回归准确率。
2、数据集的一些特征存在缺失值
3、数据集的特征需要统一类型为数字

筛选特征

先解决第一个问题，使用drop()函数来删除整列元素

# 筛选特征
data.drop(['Cabin', 'Name', 'Ticket'], inplace=True, axis=1)  # 删除特征列表，并覆盖原表,对列操作

第一个参数是需要删除的特征列表。
inplace默认值是False,表征不覆盖原表，这里inplace=True表征覆盖原表。
axis是对轴操作，默认值是0，是对行操作，1是对列操作

处理缺失值

接下来使用fillna()函数填充缺失值，dropna()函数用于删掉有缺失值的行

# 处理缺失值
data['Age'] = data['Age'].fillna(data['Age'].mean())  # 对缺失值Age进行填充
data = data.dropna(

最低0.47元/天解锁文章