Python 数据处理:自定义函数、分组聚合与数据合并技巧
在数据处理和分析过程中,我们常常需要对数据进行分组聚合、合并等操作。本文将详细介绍如何使用自定义函数和 groupby 进行数据聚合,以及如何处理数据合并时出现的问题。
1. 使用自定义函数和 apply 进行分组聚合
在处理数据时,尽管 pandas 和 NumPy 提供了众多的聚合函数,但有时我们仍需编写自定义函数来满足特定需求。以下是具体操作步骤:
1.1 准备工作
使用 NLS 数据进行操作,首先导入所需的库并加载数据:
import pandas as pd
import numpy as np
nls97 = pd.read_csv("data/nls97b.csv")
nls97.set_index("personid", inplace=True)
1.2 创建自定义函数计算四分位距
def iqr(x):
return x.quantile(0.75) - x.quantile(0.25)
1.3 运行四分位距函数
创建一个字典,指定对每个分析变量运行的聚合函数:
aggdict = {'weeksworked06':['count', '
超级会员免费看
订阅专栏 解锁全文
1033

被折叠的 条评论
为什么被折叠?



