【Pandas】常规方法使用

晴朗的心情

已于 2024-09-03 18:45:44 修改

阅读量2.1k

点赞数 1

分类专栏： Python 文章标签： pandas统计方法

于 2018-11-11 14:54:58 首次发布

本文链接：https://blog.youkuaiyun.com/qq_37099834/article/details/83958589

版权

文章目录

选取多列

cyb_df=cyb_df.loc[:,['列名1','列名2','列名3']]

筛选

in筛选

表示我只想得到user_id为1或者为2的数据

a_df=a_df[a_df['user_id'].isin([1,2])]

取反

exist_avatar 是列表数据

df = df[~df['personId'].isin(exist_avatar)]

多条件筛选

a_df = a_df[(a_df['Diff'].notnull()) & (a_df['Diff'] > 100)]

筛选某列不为空的行

df = df[df['my_col'].notnull()]

筛选出满足条件的行并赋值

单个条件筛选

df['xx'].loc[df['yy']>5]=0

多个条件筛选

df['xx'].loc[(df['yy']>5)&(df['zz']>9)]=0

用in语句筛选之后赋值

df['xx'].loc[df['yy'].isin([1,2,3,4,5])]=0

删除多列

total_df=total_df.drop(['server_time_x','server_time_y'], axis=1)

删除单列

 df.drop('personPhoto', axis=1, inplace=True)

count

import pandas as pd
a=[['1','2','5'],['1','4','7'],['2','5','6']]
b=pd.DataFrame(a,columns=['a','b','c'])
print(b[b['a']=='1'].a.count())

遍历（iterrows）

import pandas as pd
a=[['1','2','5'],['1','4','7'],['2','5','6']]
b=pd.DataFrame(a,columns=['a','b','c'])
for index ,row in b.iterrows():
	print(row['a'],row['b'],row['c'])

此方法注意事项，无法修改dataFrame原来的值，修改的只是副本，因此，如果业务逻辑需要修改的话，建议定义一个临时dataFrame

tmp_list=[]
tmp_dict={}
for index, row in base_df.iterrows():
     api_data=get_region_city(row['ip'])
     tmp_dict['city']= row['city'] if row['city'] != 0 else int(api_data['city_id'])
     tmp_dict['region'] = row['region'] if row['region'] != 0 else int(api_data['region_id'])
     tmp_dict['country']=get_country_id(api_data['region_id'],provincial_df)
     tmp_list.append(tmp_dict.copy())
 tmp_df=pd.DataFrame(tmp_list)
 base_df[['city','region','country']]=tmp_df[['city','region','country']]#将临时变量的列赋值给原始df，如果base_df在此之前还做了筛选，一定保证筛选只有使用.reset_index()这个方法，重新索引，不然临时df赋值过去，效果不对。
 de

最低0.47元/天解锁文章