泰坦尼克号第三章模型搭建和评估

最新推荐文章于 2023-07-17 11:46:01 发布

霖承科技 LinChance

最新推荐文章于 2023-07-17 11:46:01 发布

阅读量2.7k

点赞数

分类专栏：人工智能文章标签：数据挖掘 python 数据分析

本文链接：https://blog.youkuaiyun.com/qq_45090427/article/details/123725752

版权

第三章模型搭建和评估–建模

经过前面的两章的知识点的学习，我可以对数数据的本身进行处理，比如数据本身的增删查补，还可以做必要的清洗工作。那么下面我们就要开始使用我们前面处理好的数据了。这一章我们要做的就是使用数据，我们做数据分析的目的也就是，运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。那么分析的第一步就是建模，搭建一个预测模型或者其他模型；我们从这个模型的到结果之后，我们要分析我的模型是不是足够的可靠，那我就需要评估这个模型。今天我们学习建模，下一节我们学习评估。

我们拥有的泰坦尼克号的数据集，那么我们这次的目的就是，完成泰坦尼克号存活预测这个任务。

# 导入库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns # 基于matolotlib的可视化库
from IPython.display import Image # 展示图片
from IPython.display import display_html as dis_h # 使用html展示数据

载入这些库，如果缺少某些库，请安装他们

【思考】这些库的作用是什么呢？你需要查一查

pandas 为 Python 提供高性能，易于使用的数据结构和数据分析工具
numpy 支持大量的维度数组与矩阵运算
matplotlib Python的绘图库，与numpy结合使用
seaborn 基于Python 且非常受欢迎的图形可视化库，在 matplotlib 的基础上，进行了更高级的封装，使得作图更加方便快捷

载入我们提供清洗之后的数据(clear_data.csv)，大家也将原始数据载入（train.csv），说说他们有什么不同

ans：清洗数据中没有姓名列和存活列文字数据都转换为了数字（方便快速运算）

# 导入数据
data = pd.read_csv('clear_data.csv') # 清洗后的数据 
train = pd.read_csv('train.csv') # 原始数据
data.shape,train.shape

((891, 11), (891, 12))

# 观察清洗后的数据和原始数据
print(dis_h(data.head(3))) # 没有姓名和存活列  文字数据都转换为了数字
print(dis_h(train.head(3)))

	PassengerId	Pclass	Age	SibSp	Fare	Sex_female	Sex_male	Embarked_C	Embarked_S
0	0	3	22.0	1	7.2500	0	1	0	1
1	1	1	38.0	1	71.2833	1	0	1	0
2	2	3	26.0	0	7.9250	1	0	0	1

None

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S

None

模型搭建

处理完前面的数据我们就得到建模数据，下一步是选择合适模型
在进行模型选择之前我们需要先知道数据集最终是进行监督学习（需要有标签进行训练）还是无监督学习（不需要标签进行训练）
模型的选择一方面是通过我们的任务来决定的。
除了根据我们任务来选择模型外，还可以根据数据样本量以及特征的稀疏性来决定
刚开始我们总是先尝试使用一个基本的模型来作为其baseline，进而再训练其他模型做对比，最终选择泛化能力或性能比较好的模型

这里我的建模，并不是从零开始，自己一个人完成完成所有代码的编译。我们这里使用一个机器学习最常用的一个库（sklearn）来完成我们的模型的搭建

下面给出sklearn的算法选择路径，供大家参考

# sklearn模型算法选择路径图
Image('sklearn.png')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kUzwpzoS-1648140848631)(output_13_0.png)]

【思考】数据集哪些差异会导致模型在拟合数据时发生变化

ans：数据拟合（曲线拟合）根据已知数据，得到与数据拟合的曲线，可以根据曲线的方程对其他未知数进行预测，需要避免曲线过拟合（完全拟合，容错率太低）和欠拟合（容错率太高）造成预测错误
会发生变化的情况：
分情况讨论

异常值
噪音
异常挖掘

Image('fitting.png')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VH72KFdV-1648140848631)(output_15_0.png)]

任务一：切割训练集和测试集

这里使用留出法划分数据集

训练集用于训练模型，测试集用于评估模型

将数据集分为自变量和因变量（训练标签）
按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%) —— 根据数量的大小还设定，数据量大，则测试集可以少一点，数量小，则按比例
使用分层抽样
设置随机种子以便结果能复现

【思考】

划分数据集的方法有哪些？

留出法
交叉验证法
自助法

详细：https://www.cnblogs.com/jyroy/p/13547118.html

为什么使用分层抽样，这样的好处有什么？

任务提示1

切割数据集是为了后续能评估模型泛化能力
sklearn中切割数据集的方法为train_test_split
查看函数文档可以在jupyter noteboo里面使用train_test_split?后回车即可看到
分层和随机种子在参数里寻找

from sklearn.model_selection import train_test_split

# 一般先取出X和y后再切割，有些情况会使用到未切割的，这时候X和y就可以用,x是清洗好的数据，y是我们要预测的存活数据'Survived'
X

最低0.47元/天解锁文章