数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(上)

本文介绍了数据挖掘项目的过程,包括数据准备、数据清洗和数据重组。首先从Kaggle下载泰坦尼克号数据集,然后查看数据信息,对缺失值进行处理,如用中位数填充年龄空值。接着,根据SibSp和Parch构建家庭人口总数,并将性别转换为0和1表示。最后,预告接下来将通过可视化进行进一步分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

(一)步骤流程:

#(一) 目标确定:根据已有数据预测未知旅客生死

# (二)数据准备:1 数据获取,载入训练集csv,测试集csv
# (三)数据清洗:补齐或抛弃缺失值,数据类型变化(字符串转数字)
# (四)数据重构:根据需要重新构造数据(重组数据,构建新特性)

#(五)数据分析:
      1 描述性分析,画图,直观分析
      2  探索性分析, 机器学习模型

# (六)成果输出:csv文件上传得到正确率和排名

学习数据挖掘(分析)的步骤差不多就这些,这是对于第二次练习数据挖掘项目的体会,难道不就是这些吗,当然除了加上你的思维判断。

##(二)数据准备

(1)下载数据源

在kaggle上下载数据包:https://www.kaggle.com/c/titanic

image.png

把上面这三个csv文件都下载下来。

(2)查看数据信息

1)测试集数据

# 1 载入库
import numpy as np 
import matplotlib.pyplot as plt 
import pandas as pd 

# 数据获取
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

# 显示头几行数据  # head()方法查看头部几行信息,如果打train则返回所有数据列表
train.head()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值