pandas 对比两个dataframe实现sql的‘not in‘的效果

博客记录了处理DataFrame的两种方法。一是遍历DataFrame拼接‘not in’的SQL,据说运行速度快,待后续实验;二是拼接对比对象并删除重复项,但数据量大时可能卡死,此方法弃用。

其实最终我去遍历dataframe然后拼 ‘not in’ 的sql去了。😂
这种方式(百度看到的)应该跑起来挺快的,记录一下,下次实验一下。

import pandas as pd
df1=pd.DataFrame({'authorID':['12','34','56']})
df2=pd.DataFrame({'authorID':['12','56','78','97']})
original_users=set(df1[['authorID']].values.reshape(-1))
for i in df2[['authorID']].values.reshape(-1):
    if i not in original_users:
        print(i)

还有一种也是百度看到的,这个方式是把想对比的对象拼接在一起,然后把重复项删除。。还得拼两次,要不然把原本自己没有的项也带进来了,但是我觉得如果数据量一大起来,估计会卡死,这种弃用。

>>> import pandas as pd
>>> data_a={'state':[1,1,2],'pop':['a','b','c']}
>>> data_b={'state':[1,2,3],'pop':['b','c','d']}
>>> a=pd.DataFrame(data_a)
>>> b=pd.DataFrame(data_b)
>>> a
   state pop
0      1   a
1      1   b
2      2   c
>>> b
   state pop
0      1   b
1      2   c
2      3   d
>>> a=a.append(b)
>>> a=a.append(b)
>>> a
   state pop
0      1   a
1      1   b
2      2   c
0      1   b
1      2   c
2      3   d
0      1   b
1      2   c
2      3   d
>>> a.drop_duplicates(subset=['state','pop'],keep=False)
   state pop
0      1   a
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值