比例数据可视化

最新推荐文章于 2025-12-29 11:36:38 发布

原创最新推荐文章于 2025-12-29 11:36:38 发布 · 816 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#信息可视化

比例数据可视化

【实验名称】绘制板块层级图
【实验目的】
【实验原理】
【实验环境】
【实验步骤】
【实验总结】

【实验名称】绘制板块层级图

【实验目的】

1.掌握数据文件读取

2.掌握数据处理的方法

3. 实现板块层级图的绘制

【实验原理】

板块层级图（treemap）是一种基于面积的可视化方式，通过每一个板块（通常为矩形）的尺寸大小进行度量。外部矩形代表父类别，而内部矩形代表子类别。我们也可以通过板块层级图简单的呈现比例关系，不过它更擅于呈现树状结构的数据。
读取绘图所用的数据，并对数据进行处理将数据处理成我们可以使用的形式，绘制板块层级图，设置标签和标题。

【实验环境】

OS:win11
python:v3.13

【实验步骤】

一、安装所需库

1、输入命令：pip install pandas
在这里插入图片描述
2、输入命令：pip install matplotlib

3.输入命令：pip install seabor
在这里插入图片描述
4.输入命令：pip install squarify

在这里插入图片描述

二、读取数据

在这里我们使用pandas库中的read_csv函数来读取这3个数据文件。
在这里插入图片描述

三、数据处理

我们需要根据源表对目标表进行匹配查询，使用 merge 函数进行操作。
在这里插入图片描述
原代码版本老旧，不适应目前版本。

加入了判断条件，使得确保在合并前的必要列存在

# 确保在合并前的必要列存在
if 'aisle_id' not in aisles_df.columns:
    raise ValueError("aisles_df 中缺少 'aisle_id' 列。")
if 'department_id' not in departments_df.columns:
    raise ValueError("departments_df 中缺少 'department_id' 列。")

# 合并数据框
order_products_prior_df = pd.merge(products_df, aisles_df, on='aisle_id', how='left')
order_products_prior_df = pd.merge(order_products_prior_df, departments_df, on='department_id', how='left')

# 创建临时数据框
temp = order_products_prior_df[['product_name', 'aisle', 'department']]
temp = pd.concat([
    order_products_prior_df.groupby('department')['product_name'].nunique().rename('products_department'),
    order_products_prior_df.groupby('department')['aisle'].nunique().rename('aisle_department')
], axis=1).reset_index()

实现结果：
在这里插入图片描述
四、绘制板块层级图

上述参考代码使用了viridis色图进行渲染，由于我的版本于现在不兼容，故做出了一系列修改，即使用 plasma 色图来完成该操作：

# 设置颜色映射
cmap = matplotlib.cm.plasma  # 使用 'plasma' 色图
mini, maxi = temp2.products_department.min(), temp2.products_department.max()
norm = matplotlib.colors.Normalize(vmin=mini, vmax=maxi)

# 获取颜色列表
colors = [cmap(norm(value)) for value in temp2.products_department]
colors[0] = "#4F5B93"  # 使用有效的颜色代码

# 创建标签
labels = [
    "%s\n%d aisle num\n%d products num" % (label, aisle_num, product_num)
    for label, aisle_num, product_num in zip(temp2.index, temp2.aisle_department, temp2.products_department)
]

# 创建图形
fig = plt.figure(figsize=(12, 10))
ax = fig.add_subplot(111, aspect="equal")

# 绘制矩形图
squarify.plot(
    temp2.aisle_department,
    color=colors,
    label=labels,
    ax=ax,
    alpha=0.7
)

运行结果：
在这里插入图片描述
设置 x、y 轴的属性

# 添加图表标题
fig.suptitle("How are aisles organized within departments", fontsize=20)

# 添加数据标签
img = plt.imshow([temp2.products_department], cmap=cmap)
img.set_visible(False)  # 隐藏对于imshow的原始图
fig.colorbar(img, orientation="vertical", shrink=0.96)  # 添加颜色条
fig.text(0.76, 0.9, 'numbers of products', fontsize=14)  # 添加说明文本

# 添加标题
plt.title("Aisle Department Visualization")
plt.show()

板块层级图效果如下：
在这里插入图片描述
完整代码实现：

import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
import squarify

# 加载数据框（请根据自己的文件路径修改）
departments_df = pd.read_csv("E:\\technology\\The_fourth_theaper\\departments.csv")
aisles_df = pd.read_csv("E:\\technology\\The_fourth_theaper\\aisles.csv")
products_df = pd.read_csv("E:\\technology\\The_fourth_theaper\\products.csv")

# 确保在合并前的必要列存在
if 'aisle_id' not in aisles_df.columns:
    raise ValueError("aisles_df 中缺少 'aisle_id' 列。")
if 'department_id' not in departments_df.columns:
    raise ValueError("departments_df 中缺少 'department_id' 列。")

# 合并数据框
order_products_prior_df = pd.merge(products_df, aisles_df, on='aisle_id', how='left')
order_products_prior_df = pd.merge(order_products_prior_df, departments_df, on='department_id', how='left')

# 创建临时数据框
temp = order_products_prior_df[['product_name', 'aisle', 'department']]
temp = pd.concat([
    order_products_prior_df.groupby('department')['product_name'].nunique().rename('products_department'),
    order_products_prior_df.groupby('department')['aisle'].nunique().rename('aisle_department')
], axis=1).reset_index()

# 设置索引为部门
temp = temp.set_index('department')

# 按 'aisle_department' 降序排序
temp2 = temp.sort_values(by='aisle_department', ascending=False)

# 设置颜色映射
cmap = matplotlib.cm.plasma  # 使用 'plasma' 色图
mini, maxi = temp2.products_department.min(), temp2.products_department.max()
norm = matplotlib.colors.Normalize(vmin=mini, vmax=maxi)

# 获取颜色列表
colors = [cmap(norm(value)) for value in temp2.products_department]
colors[0] = "#4F5B93"  # 使用有效的颜色代码

# 创建标签
labels = [
    "%s\n%d aisle num\n%d products num" % (label, aisle_num, product_num)
    for label, aisle_num, product_num in zip(temp2.index, temp2.aisle_department, temp2.products_department)
]

# 创建图形
fig = plt.figure(figsize=(12, 10))
ax = fig.add_subplot(111, aspect="equal")

# 绘制矩形图
squarify.plot(
    temp2.aisle_department,
    color=colors,
    label=labels,
    ax=ax,
    alpha=0.7
)

# 添加图表标题
fig.suptitle("How are aisles organized within departments", fontsize=20)

# 添加数据标签
img = plt.imshow([temp2.products_department], cmap=cmap)
img.set_visible(False)  # 隐藏对于imshow的原始图
fig.colorbar(img, orientation="vertical", shrink=0.96)  # 添加颜色条
fig.text(0.76, 0.9, 'numbers of products', fontsize=14)  # 添加说明文本

# 添加标题
plt.title("Aisle Department Visualization")
plt.show()