使用Python计算每个分组的样本个数
在数据分析中,我们经常需要对数据进行分组,并计算每个分组中样本的数量。Python中有一个内置函数叫做len()
可以用来计算列表、元组和字符串等对象的长度,但这个函数不能直接用来计算分组的样本数量。那么我们要如何计算每个分组的样本数量呢?这里我们介绍使用Pandas库中的size()
函数来计算每个分组的样本数量。
首先,我们需要导入Pandas库并读取数据。假设我们有一个包含姓名、性别和年龄的数据集data
:
import pandas as pd
# 读取数据集
data = pd.read_csv('data.csv')
现在,我们可以使用groupby()
将数据集按照性别分组,并使用size()
计算每个分组的样本数量: