数据挖掘实战系列之 Kaggle 泰坦尼克号灾难（上）

最新推荐文章于 2025-06-09 11:44:00 发布

xudailong_blog

最新推荐文章于 2025-06-09 11:44:00 发布

阅读量5.4k

点赞数 1

CC 4.0 BY-SA版权

文章标签：数据挖掘数据分析 python数据分析 Kaggle 太烫尼克号灾难

本文链接：https://blog.youkuaiyun.com/xudailong_blog/article/details/80233459

本文介绍了数据挖掘项目的过程，包括数据准备、数据清洗和数据重组。首先从Kaggle下载泰坦尼克号数据集，然后查看数据信息，对缺失值进行处理，如用中位数填充年龄空值。接着，根据SibSp和Parch构建家庭人口总数，并将性别转换为0和1表示。最后，预告接下来将通过可视化进行进一步分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（一）步骤流程：

#（一） 目标确定：根据已有数据预测未知旅客生死

# （二）数据准备：1 数据获取，载入训练集csv，测试集csv
# （三）数据清洗：补齐或抛弃缺失值，数据类型变化（字符串转数字）
# （四）数据重构：根据需要重新构造数据（重组数据，构建新特性）

#（五）数据分析：
      1 描述性分析，画图，直观分析
      2  探索性分析， 机器学习模型

# （六）成果输出：csv文件上传得到正确率和排名

学习数据挖掘（分析）的步骤差不多就这些，这是对于第二次练习数据挖掘项目的体会，难道不就是这些吗，当然除了加上你的思维判断。

##（二）数据准备

（1）下载数据源

在kaggle上下载数据包：https://www.kaggle.com/c/titanic

把上面这三个csv文件都下载下来。

（2）查看数据信息

1）测试集数据

# 1 载入库
import numpy as np 
import matplotlib.pyplot as plt 
import pandas as pd 

# 数据获取
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

# 显示头几行数据  # head()方法查看头部几行信息，如果打train则返回所有数据列表
train.head()