1.去掉重复行
使用pandas自带的drop_duplicates方法:
norepeat_df = df.drop_duplicates(subset=['A_ID', 'B_ID'], keep='first')
#去掉A_ID和B_ID列中重复的行,并保留重复出现的行中第一次出现的行
补充:
当keep=False时,就是去掉所有的重复行
当keep=‘first’时,就是保留第一次出现的重复行
当keep='last’时就是保留最后一次出现的重复行。
(注意,这里的参数是字符串,要加引号!!!)
2.去掉NaN行
使用pandas自带的dropna()方法:
#删除表中某行全部为NaN的行
nonan_df = df.dropna(axis=0, how='all')
#删除表中某行含有任何NaN的行
nonan_df = df.dropna(axis=0, how='any')
补充:
删除行的参数axis = 0
删除列的参数axis = 1

本文介绍了使用Pandas进行数据预处理的方法,包括如何去除数据中的重复行和含有NaN值的行。通过简单的代码示例展示了drop_duplicates()和dropna()函数的用法及其参数设置。
1906

被折叠的 条评论
为什么被折叠?



