python数据分析常用函数总结

本文总结了Python数据分析中处理重复值和空值的常用方法。通过`DataFrame.duplicated()`和`drop_duplicates()`检查及删除重复值,利用`isnull()`和`notnull()`识别并使用`dropna()`或`fillna()`处理缺失值。对于填充空值,介绍了使用平均值、中位数等统计值或向前、向后填充的策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、前言

在个人理解中,首先我们拿到一份数据后会经过以下几个流程:
1.清除数据的重复值
2.填充数据中的NULL值,空值
3.清洗数据中带有异常符号的值(最为困难)
4.更改数据类型
5.重建数据的索引
因此,我打算从这四个方面总结以下我们常用的函数。

1.1查看重复值

1.DataFrame.duplicated()
这个函数可以查看行与行间是否具有重复值,返回布尔值
如果是DataFrame.duplicated([‘v1’]),
如果指定v1列,则是查看v1列的重复值;也可以传入多个列
2.DataFrame.drop_duplicates()
删除行与行的重复值;同样可以指定删除某列或多列的重复值,它的一个参数为keep=‘last’,即保留最后的一个重复值。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

1.2填充数据中的NULL值,空值

1.查看缺失值isnull(),notnull()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值