记录pandas处理数据时一些函数的使用。。。。
1.列表拼接
concat()
In[24]: import pandas as pd
In[25]: a=pd.DataFrame()
In[26]: a['A']=[1,2,3,4,5]
In[27]: a['B']=[6,7,8,9,0]
In[28]: b=a
In[29]: c=pd.concat((a,b),axis=1)
In[32]: c
Out[32]:
A B A B
0 1 6 1 6
1 2 7 2 7
2 3 8 3 8
3 4 9 4 9
4 5 0 5 0
2.更改列名
#更改所有列名
In[33]: c.columns=['A','B','C','D']
In[34]: c
Out[34]:
A B C D
0 1 6 1 6
1 2 7 2 7
2 3 8 3 8
3 4 9 4 9
4 5 0 5 0
#更改指定列名
In[37]: c.rename(columns={'A':'AA','C':'CC'})
Out[37]:
AA B CC D
0 1 6 1 6
1 2 7 2 7
2 3 8 3 8
3 4 9 4 9
4 5 0 5 0
3.更改索引
#更改全部索引
In[38]: c.index=['A','B','C','D','E']
In[39]: c
Out[39]:
A B C D
A 1 6 1 6
B 2 7 2 7
C 3 8 3 8
D 4 9 4 9
E 5 0 5 0
#更改特定索引
In[40]: c.rename(index={'A':'AA','C':'CC'})
Out[40]:
A B C D
AA 1 6 1 6
B 2 7 2 7
CC 3 8 3 8
D 4 9 4 9
E 5 0 5 0
4.选取指定数据
In[45]:c
Out[45]:
A B C D
A 1 6 1 6
B 2 7 2 7
C 3 8 3 8
D 4 9 4 9
E 5 0 5 0
In[48]: df1=c.loc[['A','B','C'],:]
In[49]: df1
Out[49]:
A B C D
A 1 6 1 6
B 2 7 2 7
C 3 8 3 8
In[50]: df2=c.loc[:,['A','B']]
In[51]: df2
Out[51]:
A B
A 1 6
B 2 7
C 3 8
D 4 9
E 5 0
5.重置索引
reset_index()
#增加新索引,原索引保留
In[54]: a=c
In[55]: a.reset_index()
Out[55]:
index A B C D
0 A 1 6 1 6
1 B 2 7 2 7
2 C 3 8 3 8
3 D 4 9 4 9
4 E 5 0 5 0
#增加新索引,删除原索引
In[56]: b=c
In[57]: b.reset_index(drop=True)
Out[57]:
A B C D
0 1 6 1 6
1 2 7 2 7
2 3 8 3 8
3 4 9 4 9
4 5 0 5 0
#选取特定数据
6.取特定行
#df_train数据中的标签有0和1,只取标签为1的数据
train_concat=df_train[df_train['is_dup']==1]
7.将两列数据内容合并
#将train_concat文本数据中的两列融为一体
train_concat['concat']=train_concat[['query','reply']].apply(lambda x:''.join(x),axis=1)