机器学习案例:泰坦尼克号幸存者的预测
泰坦尼克号幸存者预测是机器学习的经典案例,其涉及了众多机器学习会遇到的问题,回归难度也比较大。本次数据集来自kaggle,可从该地址https://www.kaggle.com/competitions/titanic/data自行下载。数据集格式为csv
引入需要调取的库
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
import numpy as np
处理数据集
数据集长下面这个样子

引入数据集
data = pd.read_csv('D:\\编程\\python_work\\train.csv')
print(data.info()) # 调出data数据信息
print(data.head(5)) # 调取前n行列表

该表为数据集的信息
从表中可以看出以下三个问题:
1、数据集中很多特征与幸存者数量相关性不大因此筛选特征以此提高回归准确率。
2、数据集的一些特征存在缺失值
3、数据集的特征需要统一类型为数字
筛选特征
先解决第一个问题,使用drop()函数来删除整列元素
# 筛选特征
data.drop(['Cabin', 'Name', 'Ticket'], inplace=True, axis=1) # 删除特征列表,并覆盖原表,对列操作
第一个参数是需要删除的特征列表。
inplace默认值是False,表征不覆盖原表,这里inplace=True表征覆盖原表。
axis是对轴操作,默认值是0,是对行操作,1是对列操作
处理缺失值
接下来使用fillna()函数填充缺失值,dropna()函数用于删掉有缺失值的行
# 处理缺失值
data['Age'] = data['Age'].fillna(data['Age'].mean()) # 对缺失值Age进行填充
data = data.dropna(

最低0.47元/天 解锁文章
3242

被折叠的 条评论
为什么被折叠?



