数据分析处理库Pandas-数据预处理

本文通过Titanic生存数据集,介绍了使用Pandas进行数据预处理的方法,包括数据读取、缺失值检测与统计等关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

导入pandas库和numpy库

import pandas as pd
import numpy as np

我们以一个csv文件来展示pandas是如何来进行数据预处理的:titanic_train.csv

读入文件titanic_train.csv,并显示前十行数据

titanic_survival = pd.read_csv("titanic_train.csv")
titanic_survival.head()

OUT:
这里写图片描述
下面对数据进行处理

#获取数据
age = titanic_survival["Age"]
print(age.loc[:10])
print("__________")
#判断是否有缺失值
age_is_null = pd.isnull(age)
print(age_is_null.loc[:10])
print("__________")
#保留isnull为true值
age_null_true = age[age_is_null]
print(age_null_true.loc[:10])
print("__________")
#计算缺失值个数
age_null_count = len(age_null_true)
print(age_null_count)

OUT:

0     22.0
1     38.0
2     26.0
3     35.0
4     35.0
5      NaN
6     54.0
7      2.0
8     27.0
9     14.0
10     4.0
Name: Age, dtype: float64
__________
0     False
1     False
2     False
3     False
4     False
5      True
6     False
7     False
8     False
9     False
10    False
Name: Age, dtype: bool
__________
5   NaN
Name: Age, dtype: float64
__________
177

附上:
数据分析处理库Pandas-数据读取
数据分析处理库Pandas-常用函数
数据分析处理库Pandas-Series结构

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

白水baishui

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值