Pandas数据操作指南-优快云博客

本文链接：https://blog.youkuaiyun.com/Bi_1ngram4/article/details/103024796

import pandas as pd  导入
 
创建
data = {' 列名' : [' ', ' ', ' ']}
df_data = pd.DataFrame(data)  创建pandas，相当于字典

取
pd.read_csv(' .csv')  读取csv文件

df.head(6)  读取前6行
df.info()  返回当前信息
df.columns  返回列名
df.index()  返回范围内的数据
df.dtypes()  返回数据类型
df.value()  返回数据的值
df.value_counts() 查看表格某列中有多少个不同值
df.describe()  生成简要的统计信息
df.['列名']  取指定列
df[df['列名']>40]  按条件查
df.loc[行名，列名]  用labe定位
df.iloc[]  用索引值取
df.ix
colmuns.unique  去重显示该列所有结果
colmuns.nunique  去重显示该列所有结果类数
.map


计算
df.max()
df.min()
Age[:5]+10  Age列中前五行，挨个+10
Age[:5]*10  Age列中前五行，挨个*10
Age.mean 均值
df.cov()  协方差
df.corr()  相关系数
df.std()  标准差
df.var()  方差
df.median()  中值
df.argmax(axis=0)  列中最大值

缺失值处理
np.any(pd.isnull())
np.all(pd.notnull())

1、删除缺失值
pd.dropna()
2、替换、插补
pd.fillna(value,linplace= )

数据的离散化
1、分组 
自动分组 sr=pd.qcut(data,3)
自定义分组 sr=pd.cut(data,bins)    #prefix是组前缀
2、转换成one-hot编码
pd.get_dummies(sr,prefix=)

合并处理
pd.concat([a,b],axis=1)   按方向拼接
pd.merge(left,right,how='',on[索引])	按索引拼接

数据交叉表
pd.crosstab(列1,列2)

数据透视表
.pivot_table([],index=[])

数据的分组与聚合
.groupby(by='')  分组
.groupby(by=''[""].max())  分组后聚合

描述性分析
df.describe()

datatime =