基本原理
在数据分析中,我们经常需要对数据集进行分组,并在每个组上执行统计分析,比如计算每个组的计数、平均值、最大值等。Pandas 是 Python 中一个强大的数据分析库,它提供了 GroupBy
功能来实现这一需求。
GroupBy
可以将数据集按照一个或多个列的值进行分组,然后对每个分组应用函数或聚合操作。这使得我们能够快速地对数据进行切片、汇总和分析。
代码示例
示例1:基本的分组统计
假设我们有一个包含员工信息的数据集,我们想要计算每个部门的员工数量。
import pandas as pd
# 创建示例数据
data = {
'Employee': ['John', 'Lisa', 'Michael', 'Sarah', 'David'],
'Department': ['Accounting', 'Engineering', 'Engineering', 'HR'