之前使用pandas处理数据使用的少,最近在实习中经常用到,故自以为把心得总结一番。
说明:有部分是网上查到的案例,觉得很实用,就把它搬过来了。
1.DataFrame的列名
## 方法一:全部修改
df.columns = ['a', 'b', 'c', 'd']
df.columns = df.columns.map(lambda x:x[1:])
df.columns = df.columns.str.strip('$')
## 方法二:可以局部修改
df.rename(columns=('$a': 'a','$e': 'e'}, inplace=True)
df.rename(columns=lambda x:x.replace('$',''), inplace=True)
2.concat拼接
## concat拼接,我常用于处理单个列或行后将数据拼接在一起。
hangye_shouyi_ratio = pd.DataFrame()
for i in range(1,16):
data_hangye_indexa = hangye_index.iloc[:,i+1].values - hangye_index.iloc[:,i].values
hangye_shouyi_ratio = pd.concat([hangye_shouyi_ratio,data_hangye_indexa.T],axis=0)
参考网址: http://pandas.pydata.org/pandas-docs/stable/merging.html
3.merge 两个dataframe拼接
# 基于关键词"申万一级行业"拼接两个dataframe
pd.merge(hangye_index,chaopei,on='申万一级行业')
4.计算nan的个数
## 计算NAN或缺失值的个数
df.isnull().sum(axis=1)
## 计算非NAN或缺失值的个数
df.null().sum(axis=1)