python->数据分析之pandas->数据清洗与准备(自己的学习笔记

自己学习的笔记,看不懂是很正常的现象,如果寻找正规好看易懂?(全都不是我这篇的特点)请绕道。

数据清洗与载入

缺失值

NA处理方法
dropna(axis= ,how= ,thresh= )
#删除缺失值
fillna(value,method= ,(dict=))
#填充缺失值
isnull(),notnull()

数据转换

删除重复值
data.duplicated()
#返回布尔数组是否存在重复
data.drop_duplicated([ ],keep= )
函数和映射

使用函数和映射也可进行数据转换,如data.map()

替代值
data.replace([a,b],[a1,b1])
#也可以传入字典
重命名轴索引
data.rename(index= ,columns=)
#传入的皆是一个方法或字典
离散化和分箱
pd.cut(box= ,bin= ,right= ,labels= ,precision=)
pd.qcut(box= ,howmany= )
#返回一个特定的categories数组,具有code属性
检测和过滤异常值
data[(np.abs(data)>3).any(1)]
#选出所有值大于3或者小于-3的行
置换和随机抽样
#置换
sampler=np.random.permutation(number)
df.take(sampler)
##按照sampler的顺序,对行进行置换
#随机抽样
df.sample(n= ,replace= )
计算指标/虚拟变量
df=pd.DataFrame({'key':['b','b','a','c','a','b'],'data1':range(6)})
pd.get_dummies(df['key'],prefix= )
[output]      a   b   c
          0   0   1   0
          1   0   1   0
          2   1   0   0
          3   0   0   1
          4   1   0   0
          5   0   1   0
向量化处理字符串

必须是在data.str中使用方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值