a = df.drop_duplicates(subset=['微博id'],keep='first')
b = df.drop_duplicates(subset=['微博id'],keep=False)
f=a.append(b).drop_duplicates(subset=['微博id'],keep=False)
即将DataFrame中微博id这一series中的重复项挑出来了,f就是重复的
本文介绍了一种在Python pandas库中使用DataFrame去除重复项的方法,通过drop_duplicates函数结合append操作,实现了从数据集中筛选并获取所有重复记录的功能。
a = df.drop_duplicates(subset=['微博id'],keep='first')
b = df.drop_duplicates(subset=['微博id'],keep=False)
f=a.append(b).drop_duplicates(subset=['微博id'],keep=False)
即将DataFrame中微博id这一series中的重复项挑出来了,f就是重复的
1万+

被折叠的 条评论
为什么被折叠?