模块导入和数据读取
那我们按照惯例,首先导入模块并且来读取所要使用到的数据集,引用的依然是之前制作数据透视表的数据集
import pandas as pd
def load_data():
return pd.read_csv('coffee_sales.csv', parse_dates=['order_date'])
那这里小编是通过自定义一个函数,然后通过调用该函数来读取数据,在实际工作当中每个人都可以根据自己的喜好来操作:
df = load_data() df.head()
output

牛刀小试
交叉表是用于统计分组频率的特殊透视表。简单来说,就是将两个或者多个列中不重复的元素组成一个新的DataFrame,新数据的行和列交叉的部分值为其组合在原数据中的数量,我们先来看一个简单的例子,代码如下:
pd.crosstab(index = df['region'], columns = df['product_category'])
output

在行方向上代表的是不同的地区,而在列方向上代表的则是不同的咖啡种类,出来的结果表示的是不同地区不同咖啡种类的汇总数据,
df[(df["region"] == "Central")&(df["product_category"] == "Tea")].shape[0]
output
例如我们筛选出地区是中部地区并且品种是茶饮的数据,出来的结果总共有336条数据,和交叉

本文介绍如何使用Python进行数据分析,特别是通过自定义函数轻松创建交叉表。示例包括基本操作、进阶技巧,如改变行和列名称、添加多层次索引、归一化、设置小数位数,以及针对不同条件的统计聚合,如计算平均值。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



