数据分析入门 | kaggle泰坦尼克任务（四）—＞数据清洗及特征处理

原创

已于 2022-03-17 21:40:00 修改 · 753 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析 #数据挖掘 #big data

于 2022-03-17 21:39:43 首次发布

本文介绍了在数据分析项目中如何处理不完整数据，包括检查缺失值、处理重复值、特征观察与转换。特别是针对泰坦尼克号数据集，详细展示了年龄的离散化、文本变量转换等预处理步骤，为后续建模打下基础。

请添加图片描述

系列索引：数据分析入门 | kaggle泰坦尼克任务

文章目录

一、数据清洗及特征处理

（1）数据清洗简述

（2）观察缺失值

（3）缺失值处理

（4）重复值的处理

（5）特征观察与处理

（6）对年龄进行分箱（离散化）处理

（7）对文本变量进行转换

（8）从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)

一、数据清洗及特征处理

（1）数据清洗简述

我们拿到的数据通常是不干净的，所谓的不干净，就是数据中有缺失值，有一些异常点等，需要经过一定的处理才能继续做后面的分析或建模，所以拿到数据的第一步是进行数据清洗，本章我们将学习缺失值、重复值、字符串和数据转换等操作，将数据清洗成可以分析或建模的样子。

（2）观察缺失值

①方法一：

df.info()

PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Parch	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	0	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	0	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	0	STON/O2. 3101282	7.9250	NaN	S
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64