Pandas：移除重复数据

最新推荐文章于 2023-09-23 13:32:00 发布

BQW_

最新推荐文章于 2023-09-23 13:32:00 发布

阅读量3.5k

点赞数

CC 4.0 BY-SA版权

分类专栏： Pandas 文章标签：重复数据 unique drop_duplicates duplicated

本文链接：https://blog.youkuaiyun.com/bqw18744018044/article/details/79963344

Pandas 专栏收录该内容

38 篇文章

订阅专栏

本文介绍如何使用Pandas库进行数据去重操作，包括使用unique()获取唯一值、drop_duplicates()去除重复行以及duplicated()判断行是否重复。通过实例展示了针对Series和DataFrame的不同用法，并解释了如何按指定列进行去重。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import pandas as pd
import numpy as np
from pandas import Series,DataFrame

一、unique：只能应该与Series

s = Series(['a','b','a','c','b'])
s.unique()

array(['a', 'b', 'c'], dtype=object)

二、drop_duplicates

1.Series

s.drop_duplicates()

0    a
1    b
3    c
dtype: object

2.DataFrame

df = DataFrame({'水果':['苹果','草莓','苹果'],
               '价格':[3,9,3],
               '数量':[5,6,5]})

print(df.drop_duplicates())

   价格  数量  水果
0   3   5  苹果
1   9   6  草莓

按指定列去重复

print(df.drop_duplicates('水果'))

   价格  数量  水果
0   3   5  苹果
1   9   6  草莓

三、duplicated：判断行是否重复

df.duplicated()

0    False
1    False
2     True
dtype: bool

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

BQW_

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

pandas的重复值的处理

KJ.JK

11-14

1万+

当数据中出现了重复值，在大多数情况下需要进行删除。pandas提供了两个方法专门用来处理数据中的重复值，分别为duplicated()和drop_duplicates()方法。其中，前者用于标记是否有重复值，后者用于删除重复值，它们的判断标准是一样的，即只要两条数据中所有条目的值完全相等，就判断为重复值。 ...

【Python】pandas：排序、重复值、缺省值处理、合并、分组

最新发布

yannan20190313的博客

07-30

1745

【Python】pandas：排序（sort_index,sort_values,nsmallest,nlargest）、重复值（duplicated,drop_duplicates,value_counts,nunique）、缺省值处理（isna,isnull,notna,notnull,fillna,interpolate,combine_first,dropna,replace）、合并（join,merge,append,concat）、分组（groupby）

参与评论您还未登录，请先登录后发表或查看评论

pandas数据清洗：删除重复值、利用映射进行逐元素转换、值的替代

weixin_43901558的博客

03-18

495

之前那篇博客讲了讲怎么处理缺失值，这一篇记录一下怎么对数据进行过滤和清洗。删除重复值删除重复行一般有三种方法： duplicated方法：返回一个布尔值Series。如果该行是重复行（与之前出现的行相同），则在Series中对应的值为True，反之为False drop_duplicates方法：返回duplicated方法中返回数组中为False的部分（即打印原对象中去掉重复行后的部分）。...

利用Pandas来清除重复数据

LW的技术小筑

02-09

2万+

一.前言最近刚好在练手一个数据挖掘的项目，众所周知，数据挖掘中比较重要的一步为数据清洗，而对重复数据的处理也是数据清洗中经常碰到的一项。本文将仅介绍如何利用Pandas来清除重复数据(主要指重复行)，话不多说请看下文。二.具体介绍 2.1. 导入Pandas库 pandas是python的核心数据分析库，你可以把它理解为python版的excel，倘若你还没有安装相应的库，请查询相关教程进行安...

pandas 删除重复值

mmiikkuu的博客

07-08

255

【代码】pandas 删除重复值。

数据清洗处理实战：pandas查找与删除重复行（duplicate()与drop_duplicate()方法详解）

qq_58168857的博客

09-23

5903

最近在进行数据识别方面的开发时，多人识别的数据汇总后，发现有不少是重行的，这时为理清责任，就需要将重复数据进行标记，并删除重复数据。针对这一问题，pandas上有高效的处理方法，就是用duplicate()方法进行标记，用drop_duplicate方法进行去重。

Python Pandas：数据清洗与缺失值处理详解

4. 移除重复数据：`duplicated()`函数返回一个布尔型Series，标记DataFrame中的重复行。`drop_duplicates()`则用于移除这些重复行，可以指定基于特定列的重复性检查。 5. 数据筛选和过滤：在处理DataFrame时，可以...

Pandas之drop_duplicates:去除重复项方法

09-20

总结一下，Pandas的`drop_duplicates`方法是处理DataFrame中重复数据的强大工具。通过合理使用`subset`、`keep`和`inplace`参数，我们可以有效地对数据集进行去重处理，为数据分析提供准确可靠的数据基础。希望本次...

使用Python Pandas处理亿级数据的方法

09-19

在大数据分析领域，Python的Pandas库以其高效性和易用性成为了处理数据的首选工具，即使是面对亿级数据，Pandas也有相应的策略来应对。本文将深入探讨如何使用Python Pandas处理亿级数据，以及在实际操作中需要注意...

Python高级列表操作技巧：移除重复元素的高效方法揭秘

[Python高级列表操作技巧：移除重复元素的高效方法揭秘](http://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1526998740/31_nested_tuples_code.png) # 1. Python列表的基础和应用 Python中的...

python series去重_pandas中DataFrame和Series的数据去重

weixin_30220993的博客

03-01

3024

在SQL语言中去重是一件相当简单的事情，面对一个表(也可以称之为DataFrame)我们对数据进行去重只需要GROUP BY 就好。select custId,applyNo from tmp.online_service_startloan group by custId,applyNo1.DataFrame去重但是对于pandas的DataFrame格式就比较麻烦，我看了其他博客优化了如下...

python学习——pandas 唯一值unique( )，计数值value_counts( )及成员资格isin( )

热门推荐

qq_23418043的博客

09-09

2万+

唯一值unique(): 从结果可以看到unique()相当于把list变为set 计数值value_counts(): 顾名思义，这就是对不同的对象进行计数成员资格isin( ): isin（）就是看test是否在[1,2]中，如果在则True，不在False...

Pandas常用计数函数实战教程

neweastsun的专栏

07-26

1349

本文介绍Pandas中对数据框行或列进行计数、查找唯一值的相关函数，并通过示例进行说明。

pandas删除重复数据

路在脚下

02-02

1万+

pandas中重复问题

python | pandas：unique函数

黄佳俊的博客

11-30

5815

作用：unique()函数用于获取Series对象的唯一值。唯一性按出现顺序返回。基于哈希表的唯一，因此不排序语法：Series.unique(self) 返回：ndarray 或 ExtensionArray作为 NumPy 数组返回的唯一值。注意：以 NumPy 数组的形式返回唯一值。如果是扩展数组支持的系列，则返回该类型的新 ExtensionArray，其中仅包含唯一值。这包括分类的时期带时区的日期时间间隔疏整数NA Examples In[1]...

pandas 唯一值unique( )和nunique()

Jennie

04-01

6249

以Kaggle上black Friday数据为例 unique（）函数输出每个特征的唯一值 for col in data.columns: print('{} unique element : {}'.format(col,data[col].unique())) 输出 User_ID unique element : [1000001 1000002 1000003 ... 1004...

pandas常用函数

jianai858的博客

03-27

1011

常用模块import pandas as pdimport numpy as npastype 转换数据类型 df['实付']=df['实付'].astype('int64')df1['实付']=df['实付'].astype('float')df.dtypes 查看数据列的数据类型apply 对每个元素进行操作，可应用于df map是Series的函数，applymap可用...

在PD建立唯一性约束

老尹的笔记

08-28

2849

1.在Table Properties对话框的keys页中，增加一个keys名.注意:不要选成主键; 2.进入自定义的key的属性页,在Cloumn页中增加需要设定unique约束的cloumn即可。

Pandas删除重复行数据

sdaupyy的博客

12-13

3616

pandas读取数据，分三种情况删除重复行，主要利用了drop_duplicates()...