import pandas as pd 导入
创建
data = {' 列名' : [' ', ' ', ' ']}
df_data = pd.DataFrame(data) 创建pandas,相当于字典
取
pd.read_csv(' .csv') 读取csv文件
df.head(6) 读取前6行
df.info() 返回当前信息
df.columns 返回列名
df.index() 返回范围内的数据
df.dtypes() 返回数据类型
df.value() 返回数据的值
df.value_counts() 查看表格某列中有多少个不同值
df.describe() 生成简要的统计信息
df.['列名'] 取指定列
df[df['列名']>40] 按条件查
df.loc[行名,列名] 用labe定位
df.iloc[] 用索引值取
df.ix
colmuns.unique 去重显示该列所有结果
colmuns.nunique 去重显示该列所有结果类数
.map
计算
df.max()
df.min()
Age[:5]+10 Age列中前五行,挨个+10
Age[:5]*10 Age列中前五行,挨个*10
Age.mean 均值
df.cov() 协方差
df.corr() 相关系数
df.std() 标准差
df.var() 方差
df.median() 中值
df.argmax(axis=0) 列中最大值
缺失值处理
np.any(pd.isnull())
np.all(pd.notnull())
1、删除缺失值
pd.dropna()
2、替换、插补
pd.fillna(value,linplace= )
数据的离散化
1、分组
自动分组 sr=pd.qcut(data,3)
自定义分组 sr=pd.cut(data,bins)
2、转换成one-hot编码
pd.get_dummies(sr,prefix=)
合并处理
pd.concat([a,b],axis=1) 按方向拼接
pd.merge(left,right,how='',on[索引]) 按索引拼接
数据交叉表
pd.crosstab(列1,列2)
数据透视表
.pivot_table([],index=[])
数据的分组与聚合
.groupby(by='') 分组
.groupby(by=''[""].max()) 分组后聚合
描述性分析
df.describe()
datatime =