在看某个比赛的baseline时遇到了些以前没用过的pandas库中的方法,将一般用到的方法记录一下。
最基本的当然就是打开和保存了
dataframe = pd.read_csv('this is a csv.csv')
dataframe.to_csv('save_name.csv',index=False,sep=',') # index为是否保留行号,sep是分隔符号
关于drop的用法
dataframe.drop(['name','age'], axis=1) axis=1等价于指定column=['name','age']即删除了这两列,‘name’也可以指定为index。同时axis默认为0,即删除某一行。
df1_plus_df2 = pd.concat([df1,df2])意思就是concatenate在一起。
关于shift的用法
df['age']原来是1,2,3
那么df['age'].shift(1)就是NaN,1,2 即将元素向下shift
关于groupby的用法
groupby就是将原有的dataframe按照传入的字段划分为分组dataframe,比如groupby('age')就是按照年龄进行子分组(以便后续操作)