(一)步骤流程:
#(一) 目标确定:根据已有数据预测未知旅客生死
# (二)数据准备:1 数据获取,载入训练集csv,测试集csv
# (三)数据清洗:补齐或抛弃缺失值,数据类型变化(字符串转数字)
# (四)数据重构:根据需要重新构造数据(重组数据,构建新特性)
#(五)数据分析:
1 描述性分析,画图,直观分析
2 探索性分析, 机器学习模型
# (六)成果输出:csv文件上传得到正确率和排名
学习数据挖掘(分析)的步骤差不多就这些,这是对于第二次练习数据挖掘项目的体会,难道不就是这些吗,当然除了加上你的思维判断。
##(二)数据准备
(1)下载数据源
在kaggle上下载数据包:https://www.kaggle.com/c/titanic
把上面这三个csv文件都下载下来。
(2)查看数据信息
1)测试集数据
# 1 载入库
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
# 数据获取
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")
# 显示头几行数据 # head()方法查看头部几行信息,如果打train则返回所有数据列表
train.head()