pandas常见基础操作

import pandas as pd  导入
 
创建
data = {' 列名' : [' ', ' ', ' ']}
df_data = pd.DataFrame(data)  创建pandas,相当于字典

取
pd.read_csv(' .csv')  读取csv文件

df.head(6)  读取前6行
df.info()  返回当前信息
df.columns  返回列名
df.index()  返回范围内的数据
df.dtypes()  返回数据类型
df.value()  返回数据的值
df.value_counts() 查看表格某列中有多少个不同值
df.describe()  生成简要的统计信息
df.['列名']  取指定列
df[df['列名']>40]  按条件查
df.loc[行名,列名]  用labe定位
df.iloc[]  用索引值取
df.ix
colmuns.unique  去重显示该列所有结果
colmuns.nunique  去重显示该列所有结果类数
.map


计算
df.max()
df.min()
Age[:5]+10  Age列中前五行,挨个+10
Age[:5]*10  Age列中前五行,挨个*10
Age.mean 均值
df.cov()  协方差
df.corr()  相关系数
df.std()  标准差
df.var()  方差
df.median()  中值
df.argmax(axis=0)  列中最大值

缺失值处理
np.any(pd.isnull())
np.all(pd.notnull())

1、删除缺失值
pd.dropna()
2、替换、插补
pd.fillna(value,linplace= )

数据的离散化
1、分组 
自动分组 sr=pd.qcut(data,3)
自定义分组 sr=pd.cut(data,bins)    #prefix是组前缀
2、转换成one-hot编码
pd.get_dummies(sr,prefix=)

合并处理
pd.concat([a,b],axis=1)   按方向拼接
pd.merge(left,right,how='',on[索引])	按索引拼接

数据交叉表
pd.crosstab(1,2)

数据透视表
.pivot_table([],index=[])

数据的分组与聚合
.groupby(by='')  分组
.groupby(by=''[""].max())  分组后聚合

描述性分析
df.describe()

datatime =
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值