重复值和缺失值和空格值的处理

使用Pandas库在Python中处理数据时,针对重复值,可以通过`duplicated()`和`drop_duplicates()`函数进行检查和删除。对于缺失值,可以使用`read_csv()`的`na_values`参数指定视为缺失值的内容,然后用`isnull()`检测,`fillna()`填充或`dropna()`删除。空格值的处理包括使用字符串方法`lstrip()`, `rstrip()`和`strip()`去除左右或两侧的空格。" 112899275,10545531,Linux tcpdump到Wireshark十六进制转换教程,"['网络协议', '数据捕获', 'Wireshark工具', '十六进制转换', 'Linux命令']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#重复值处理
from pandas import read_csv
ak=read_csv('D://Python projects//reference data//4.3//data.csv')
#找出重复的位置
al=ak.duplicated()
#根据某些列判断是否重复
ao=ak.duplicated('id')
ai=ak.duplicated(['id','key'])
#提取重复行
ak[ai]
ak[ak.duplicated(['id','key'])]
#默认根据所有列删除重复值
new_ak=ak.drop_duplicates()
#也可以根据某一列删除重复值
new_po=ak.drop_duplicates('key')


#缺失数据的处理
from pandas import read_csv
sf=read_csv('D://Python projects//reference data//4.4//data.csv')
#规定指定字符为nan值
sd=read_csv('D://Python projects//reference data//4.4//data2.csv',
            na_values=['a','b','Apple'])
#找出空值的位置(返回布尔值)
isNA=sf.isnull()
#获取空值所在的行
sf[isNA.any(axis=1)]
#找出某列为NAN的行
sf[isNA[['key']].any(axis=1)]
sf[isNA[['key','value']].any(axis=1)]
#替换NA值为别的值
sf.fillna('未知')
#直接删除空值
ar=sf.dropna()

 

 

#空格值的处理
from pandas import read_csv
qf=read_csv('D://Python projects//reference data//4.5//data.csv')
#清除左边的空格
new_qf=qf['name'].str.lstrip()
#清除右边的空格
new_qd=qf['name'].str.rstrip()
#清除左右的空格
new_qw=qf['name'].str.strip()
#赋值回给原来的列
qf['name']=new_qw

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值