数据分析一般有以下步骤:
1、了解项目基本情况、提出问题;2、理解数据;3、数据清洗、准备;4、建模、训练; 5、模型的评估、预测;6、按项目要求收集结果数据;
下面我们就对泰坦尼克号沉船事件逐步进行分析。
一、了解项目基本情况、提出问题。
泰坦尼克号沉船事件是世界上一次著名的海难,电影《泰坦尼克号》的成功也让这次事件得到了更广泛的传播,其具体经过不再赘述。在这里我们想做的事情是通过对泰坦尼克号沉船事件基础数据的整理和分析,通过机器学习的方法,是否能发现哪些因素影响生还率并通过模型对生还与否进行预测。
我们先从kaggle官网下载相关数据。
查看对数据的解释。
可以看出对于我们需要预测的指标survival只有两个选项0和1,是一个二分类问题,本文使用逻辑回归模型来进行分类预测。
二、理解数据
首先导入前面已经下载的数据test.csv和train.csv,这里注意文件路径有中文需要使用open函数转换导入.
扫描下方二维码关注领取程序员必备千套ppt模板,300本精选好书,丰富面经:

结果展示
总结
- 拿到项目一定先要了解清楚项目背景,理清思路
- 构建分析和建模的框架
- 多使用info/head/describe函数查看数据处理情况,以便发现问题及时改正
- 对于某些项目、数据需要构建不同的模型、算法来训练和测试,通过不断优化来选择最合适的一个