pandas中关于DataFrame去掉重复行和NaN行

最新推荐文章于 2025-06-09 00:15:00 发布

原创最新推荐文章于 2025-06-09 00:15:00 发布 · 1.4w 阅读

42 ·

CC 4.0 BY-SA版权

文章标签：

#NaN #重复行

其他同时被 2 个专栏收录

23 篇文章

订阅专栏

数据分析

9 篇文章

订阅专栏

本文介绍了使用Pandas进行数据预处理的方法，包括如何去除数据中的重复行和含有NaN值的行。通过简单的代码示例展示了drop_duplicates()和dropna()函数的用法及其参数设置。

1.去掉重复行

使用pandas自带的drop_duplicates方法：

norepeat_df = df.drop_duplicates(subset=['A_ID', 'B_ID'], keep='first')
#去掉A_ID和B_ID列中重复的行，并保留重复出现的行中第一次出现的行

补充：
当keep=False时，就是去掉所有的重复行
当keep=‘first’时，就是保留第一次出现的重复行
当keep='last’时就是保留最后一次出现的重复行。
（注意，这里的参数是字符串，要加引号！！！）

2.去掉NaN行

使用pandas自带的dropna()方法：

#删除表中某行全部为NaN的行
nonan_df = df.dropna(axis=0, how='all')

#删除表中某行含有任何NaN的行
nonan_df = df.dropna(axis=0, how='any')

补充：
删除行的参数axis = 0
删除列的参数axis = 1

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Week.D.Awn

关注关注

5
点赞
踩
42

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pandas计算dataframe数据行的均值（mean）实战：设置skipna=False则计算行均值时不会忽略NaN值

data+scenario+science+insight

11-11

3654

pandas计算dataframe数据行的均值（mean）实战：设置skipna=False则计算行均值时不会忽略NaN值目录 pandas计算dataframe数据行的均值（mean）实战：设置skipna=False则计算行均值时不会忽略NaN值 #pandas计算dataframe数据行的均值（mean）语法 #仿真数据 #计算dataframe数据行的均值（mean） #生成新的数据列添加行均值 #仿真数据（包含NaN值的情况） #没有设置设置skipna=False则...

3 条评论您还未登录，请先登录后发表或查看评论

3 条评论

盐焗鸡蛋黄 2022.05.19
汉字也需要打出来嘛
- Apocrypha_Yu回复盐焗鸡蛋黄 2022.09.21
  汉字不是注释吗

Tisfy 2021.04.20
总结得十分精辟，就像那：羡青山有思，白鹤忘机。

【Pandas】pandas DataFrame bfill

热门推荐

weixin_39450145的博客

10-16

1万+

关于dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)参数的说明： axis：默认是0，即删除行。1或者columns则是删除列 how：删除方式。any删除至少有一个NaN的行/列；all删除全部都是NaN的行/列 thresh：阈值。int，删除的行/列至少有n个NaN值 subset：列表。columns或者index，只删除指定列/行一、any：删除至少有一个NaN的行/列 #删除至少有一个NaN的行

删除DataFrame中值全为NaN或者包含有NaN的列或行？

erinapple的博客

06-19

1万+

删除DataFrame中值全为NaN或者包含有NaN的列或行？2016年12月19日 16:41:47阅读数：17963如果存在以下DataFrame 年龄性别手机号0 2 男 NaN1 3 女 NaN2 4 NaN Na...

python_pandas_DataFrame:删除缺失值NaN

画地为牢的博客

09-14

1900

df.dropna()函数用于删除dataframe数据中的缺失数据，即删除NaN数据. 删除至少缺少一个元素的行： df.dropna() 删除至少缺少一个元素的列： df.dropna(axis = 1) 等… 参考链接：https://blog.youkuaiyun.com/qq_43188358/article/details/108335776 ...

【Pandas】pandas DataFrame clip

weixin_39648905的博客

05-10

1255

`pandas.DataFrame.clip()` 方法用于**截断（限制）DataFrame 中的数值**，将小于下限 `lower` 的值替换为 `lower`，大于上限 `upper` 的值替换为 `upper`。该方法常用于数据清洗、特征缩放等场景。

dataframe类型数据的遍历_pandas中遍历dataframe的每一个元素

weixin_39798943的博客

12-23

3860

假如有一个需求场景需要遍历一个csv或excel中的每一个元素，判断这个元素是否含有某个关键字那么可以用python的pandas库来实现。方法一：pandas的dataframe有一个很好用的函数applymap，它可以把某个函数应用到dataframe的每一个元素上，而且比常规的for循环去遍历每个元素要快很多。如下是相关代码：import pandas as pddata = [["str"...

pandas怎么去除nan,如何删除某些列中的值为NaN的Pandas DataFrame行

weixin_35036735的博客

12-19

494

I have a DataFrame:>>> dfSTK_ID EPS cashSTK_ID RPT_Date601166 20111231 601166 NaN NaN600036 20111231 600036 NaN 12600016 20111231 600016 4.3 NaN601009 20111231 601009 NaN N...

pandas删除nan的行

Kp0fS的草稿纸

02-16

4666

cell_df = cell_df.dropna(axis=0, how='any')#删除任何包含nan的行删除pandas.DataFrame 中包含NaN的行或列_Transfer-优快云博客_pandas删除nan的行

Pandas|DataFrame| DataFrame中的nan值处理

craftsman2020的博客

08-31

6757

DataFrame.dropna()方法的作用：是删除含用空值或缺失值得行或列。语法为：dropna（axis=0，how=‘any’，thresh=None，subset=None，inplace=False）axis:确定过滤的行或列，取值可以为(1) 0或index：删除包含缺失值的行，默认为0。(2) 1或columns：删除包含缺失值的列。how:确定过滤的标准，取值可以为：(1)any:默认值，如果存在NaN值，就删除该行或该列。//有一个就删除行或列。

python 中的pandas库删除重复行数据需要注意的点，含有NaN值时

m0_52638217的博客

11-02

648

ps:keep的值有3个，当keep=‘first’，表示保留第一次出现的重复行，这是默认值；当keep为 last 和 False 时，分别表示保留最后一次出现的重复行和去除所有的重复行。ps：如果返回的值为 False 表示数据没有重复，返回的值为True，表示有重复的数据。

Pandas数据处理（取数/删除NaN)

铁盒薄荷糖的博客

03-29

637

subset：列表----columns或者index，只删除指定列/行。df.iloc[ 行序 ] [列序 ]列转换为一维数组，然后访问该数组索引处的值。df.iloc[ 行 ] [ '列名' ]#取出某一列，然后根据行序列进行对第n行取值。是标量的快速访问方法，可从 Pandas。#访问行，然后使用列名访问值。df.iloc[ 行序, 列序 ]thresh：阈值，类型为int，1或者columns则是删除列。删除至少有一个NaN的行/列；删除全部都是NaN的行/列。，并且使用起来最简单。

chatgpt赋能python：Python中如何查找值为NaN的行？

liangzijiaa的博客

06-22

1494

本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。

dataframe去除nan

weixin_42576186的博客

02-12

610

在pandas中，可以使用以下几种方法去除NaN值: dropna方法：可以删除全是NaN的行或列。例如： df.dropna(axis=0, how='all', inplace=True)

pandas - 特别篇(关于读取DataFrame数据显示不完全的解决办法)

wpf973的博客

10-05

2659

今天在做数据处理的时候，发现，pandas.read_csv()读出来的数据，因为数据量太大，行列之前做了省略处理。 Rank Title ... Revenue (Millions) Metascore 0 1 Guardians of the Galaxy ... 333.13 76.0 1 ...

DataFrame中的 nan 值的处理方法

xxmbby的博客

11-23

3315

DataFrame中的 nan 值的处理方法

dataframe去掉含有nan的行

03-16

可以使用pandas库中的dropna()方法来去掉含有NaN的行。具体操作如下：假设有一个名为df的DataFrame，其中含有NaN值，可以使用以下代码去掉含有NaN的行： df.dropna(inplace=True) 其中，inplace=True表示直接在原DataFrame上进行修改，如果不加该参数，则需要将结果赋值给一个新的DataFrame。注意：该方法会直接删除含有NaN的行，因此需要根据实际情况谨慎使用。