Python_Dataframe_去除重复数据

本文介绍了如何使用Pandas的drop_duplicates()函数在Python中去除数据集中指定列的重复项,包括设置识别范围、保留策略以及inplace参数的应用。
部署运行你感兴趣的模型镜像

去除重复数据——drop_duplicates

去除指定单列或多列中的完全重复的项通过drop_duplicates()函数实现,需要利用Pandas包。

其中:

1、subset=[] 表示整个dataframe基于[]内选定列进行数据重复内容识别,可以添加多列数据进行识别。

        (1)添加一列列名时表示对选中的单列数据进行重复数据识别,

        (2)添加多列时则表示识别多列数据同时重复的情况;

2、keep='' 表示对选中的重复数据操作策略,可选择的参数为'first'、'last'和'False'三种。

        (1)'first'表示在识别的重复项中保留按照索引顺序的第一个内容,其余删除,

        (2)'last'表示在识别的重复项中保留按照索引顺序的最后一个内容,其余删除,

        (3)'False'表示删除所有重复项;

3、inplace= 表示对处理好的dataframe存储策略,可选择参数为False和True

        (1)False表示不对原始数据进行去重工作,例如示例代码中data1内容不改变,将处理结果赋予data参数中,

        (2)True表示去重工作直接在原始数据中进行操作,例如示例代码中data1中去重操作会直接在data1中进行,data不会被赋值。

data = data1.drop_duplicates(subset=['列名1','列名2'], keep='first', inplace= False)

您可能感兴趣的与本文相关的镜像

ACE-Step

ACE-Step

音乐合成
ACE-Step

ACE-Step是由中国团队阶跃星辰(StepFun)与ACE Studio联手打造的开源音乐生成模型。 它拥有3.5B参数量,支持快速高质量生成、强可控性和易于拓展的特点。 最厉害的是,它可以生成多种语言的歌曲,包括但不限于中文、英文、日文等19种语言

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值