pandas 数据处理用法

本文详细介绍了使用pandas进行数据处理的各种操作,包括处理缺失值、数据转换、删除重复值、数据替代、离散化和分箱、数据规整、聚合及移动窗口函数等,是Python数据分析的重要参考资料。

处理缺失值

dropna()
fillna()
isnull()
notnull()

数据转换

数据移动

DataFrame.shift(periods=1, freq=None, axis=0, fill_value=<object object>)
DataFrame.diff(periods=1, axis=0)

删除重复值

df.duplicated()
df.drop_duplicates()

数据转换

Series.map(arg, na_action=None)
DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds)
DataFrame.applymap(func, na_action=None)

数据替代

df.replace()

离散化和分箱

re = pd.cut(data, divided_stander)
#return catagorical object
re.codes	
re.categories()
pd.value_counts(re)	#对箱得数量计数

pd.qcut(data, num)#获得等长的箱

pd.get_dummies(data)#一列中有k个不同值 to k列值为1和0的dataframe

数据规整

DataFrame.stack(level=- 1, dropna=True)#行列合并成多重索引
DataFrame.unstack(level=- 1, fill_value=None)#拆分多重缩影

DataFrame.pivot(index=None, columns=None, values=None)#返回由给定索引/列值组织的重塑数据帧。根据列值重新调整数据形状
pd.metl(data, 'key')#将多列合并成一列

DataFrame.swaplevel('', '') #交换索引层级

聚合

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=<object object>, observed=False, dropna=True)
#return groupby object

for name, group in df.groupby('key'):  #遍历groupby object
#name 键值
#group dataframe

group_object.agg(function)
#define you own function

移动窗口函数

DataFrame.rolling(window, min_periods=None, center=False, win_type=None, on=None, axis=0, closed=None)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值