自己学习的笔记,看不懂是很正常的现象,如果寻找正规好看易懂?(全都不是我这篇的特点)请绕道。
数据清洗与载入
缺失值
NA处理方法
dropna(axis= ,how= ,thresh= )
#删除缺失值
fillna(value,method= ,(dict=))
#填充缺失值
isnull(),notnull()
数据转换
删除重复值
data.duplicated()
#返回布尔数组是否存在重复
data.drop_duplicated([ ],keep= )
函数和映射
使用函数和映射也可进行数据转换,如data.map()
替代值
data.replace([a,b],[a1,b1])
#也可以传入字典
重命名轴索引
data.rename(index= ,columns=)
#传入的皆是一个方法或字典
离散化和分箱
pd.cut(box= ,bin= ,right= ,labels= ,precision=)
pd.qcut(box= ,howmany= )
#返回一个特定的categories数组,具有code属性
检测和过滤异常值
data[(np.abs(data)>3).any(1)]
#选出所有值大于3或者小于-3的行
置换和随机抽样
#置换
sampler=np.random.permutation(number)
df.take(sampler)
##按照sampler的顺序,对行进行置换
#随机抽样
df.sample(n= ,replace= )
计算指标/虚拟变量
df=pd.DataFrame({'key':['b','b','a','c','a','b'],'data1':range(6)})
pd.get_dummies(df['key'],prefix= )
[output] a b c
0 0 1 0
1 0 1 0
2 1 0 0
3 0 0 1
4 1 0 0
5 0 1 0
向量化处理字符串
必须是在data.str中使用方法