Python数据分析——分析全球酒类消费数据

原创已于 2024-04-19 11:13:57 修改 · 2k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据分析 #开发语言

于 2024-04-15 18:11:12 首次发布

本文介绍了如何使用Python的pandas库读取和分析CSV文件drinks.csv，包括按大陆计算啤酒、红酒和spirit饮品的平均消费、描述性统计等。

部署运行你感兴趣的模型镜像

读取数据drinks.csv，并命名为drinks

哪个大陆(continent)平均消耗的啤酒(beer)更多？

对每个大陆(continent)的红酒消耗(wine_servings)进行描述性统计

每个大陆每种酒类的平均消耗量是多少？

每个大陆对spirit饮品消耗的平均值、最大值和最小值分别是多少？

读取数据`drinks.csv`，并命名为`drinks`

import pandas as pd
drinks = pd.read_csv(r'C:\Users\75559\Python\expt1\drinks.csv')
drinks

drinks 在这段代码中是一个 DataFrame 对象。pd.read_csv(r'C:\Users\75559\Python\expt1\drinks.csv') 这行代码使用 Python 的 pandas 库读取了位于指定路径（C:\Users\75559\Python\expt1\drinks.csv）的 CSV 文件，并将其加载为一个 DataFrame。在 pandas 中，DataFrame 是一个二维标签化数据结构，可以看作是一个表格，其中可以存储不同类型的数据。

哪个大陆(continent)平均消耗的啤酒(beer)更多？

print(drinks.groupby('continent').agg({'beer_servings': 'mean'}).idxmax())

drinks.groupby('continent'): 这部分将 drinks DataFrame 根据 ‘continent’ 列进行分组。这意味着数据将根据不同的大陆进行划分，每个大陆的数据将被视为一个组。
.agg({'beer_servings': 'mean'}): 这部分对每个分组应用聚合函数。在这里，我们关注的是 ‘beer_servings’ 列，并计算每个组中啤酒消费量的平均值。
.idxmax(): 这部分找出在之前聚合操作中产生的平均啤酒消费量最大的组的索引。在这个例子中，它会找到啤酒消费量平均值最高的大洲。

对每个大陆(continent)的红酒消耗(wine_servings)进行描述性统计

print(drinks.groupby('continent')['wine_servings'].describe())

drinks.groupby('continent'): 这部分将 drinks DataFrame 根据 ‘continent’ 列进行分组。这意味着数据将根据不同的大陆进行划分，每个大陆的数据将被视为一个组。
['wine_servings']: 这部分指定了要对其进行统计描述的列，这里是 ‘wine_servings’ 列，即葡萄酒消费量列。
.describe(): 这部分是 pandas 中的一个内置方法，用于计算一组数值数据的统计描述。对于 ‘wine_servings’ 列，这将返回以下统计信息：
- 'count': 每组的非空单元格数。
- 'mean': 每组的平均值。
- 'std': 每组的标准差。
- 'min': 每组的最小值。
- '25%': 每组的第一个四分位数，即25%的数据点低于这个值。
- '50%': 每组的第二个四分位数，即50%的数据点低于这个值，也就是中位数。
- '75%': 每组的第三个四分位数，即75%的数据点低于这个值。
- 'max': 每组的最大值。

每个大陆每种酒类的平均消耗量是多少？

print(drinks.groupby('continent').agg('mean'))

drinks.groupby('continent'): 这部分将 drinks DataFrame 根据 ‘continent’ 列进行分组。这意味着数据将根据不同的大陆进行划分，每个大陆的数据将被视为一个组。
.agg('mean'): 这部分对每个分组应用聚合函数。在这里，‘mean’ 表示计算平均值。这个方法允许你传入一个函数或函数的列表，用于对每个组进行聚合操作。由于没有指定具体的列名，所以这个操作会应用到 DataFrame 中的所有数值列。

每个大陆对spirit饮品消耗的平均值、最大值和最小值分别是多少？

print(drinks.groupby('continent').agg({'spirit_servings': ['mean', 'max', 'min']}))

drinks.groupby('continent'): 这部分将 drinks DataFrame 根据 ‘continent’ 列进行分组。这意味着数据将根据不同的大陆进行划分，每个大陆的数据将被视为一个组。
.agg({'spirit_servings': ['mean', 'max', 'min']}): 这部分对 ‘spirit_servings’ 列应用多个聚合函数。在这里，我们关心的是蒸馏酒消费量的平均值、最大值和最小值。‘mean’ 函数计算平均值，‘max’ 函数找到每个组中的最大值，而 ‘min’ 函数找到每个组中的最小值。这些函数分别计算 ‘spirit_servings’ 列的统计值。