数据可视化--比较与排序类可视化图像-优快云博客

本文链接：https://blog.youkuaiyun.com/ustittd/article/details/146460048

数据可视化比较与排序类图表总结

引言

在数据分析中，比较与排序是基础需求，涉及多维度数据对比、分布分析及趋势排序。本文系统梳理7种主流图表（柱状图、环形柱状图、子弹图、哑铃图、雷达图、平行坐标图、词云图），通过实际案例与代码实现，解析其适用场景与设计要点。

一、图表详解与实现

1. 柱状图 (Bar Chart)

核心功能：单维度类别数值对比
进阶特性：
• 分组柱状图：对比不同组别内子类别表现
• 堆叠柱状图：显示总量与各部分占比
• 悬浮标签：避免文字重叠

应用场景：
• 季度销售额分品类对比（分组）
• 各城市人口年龄结构分布（堆叠）

Python实现：

import matplotlib.pyplot as plt

# 数据准备
products = ['Product A', 'Product B', 'Product C']
sales = [45, 78, 62]

# 创建图表
plt.figure(figsize=(8, 5))
bars = plt.bar(products, sales, color=['#4CAF50', '#2196F3', '#FF9800'])

# 添加数据标签
for bar in bars:
    height = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2., height,
             f'{height}',
             ha='center', va='bottom')

plt.title('Sales Comparison (2023 Q3)')
plt.ylabel('Sales Volume (Million)')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

输出效果：
在这里插入图片描述

2. 环形柱状图 (Donut Chart)

核心功能：展示少量类别占比（≤5）
进阶特性：
• 环形宽度调节：通过wedgeprops控制中心镂空比例
• 百分比标签：自动标注各部分占比

应用场景：
• 用户注册渠道来源占比（微信50%、支付宝30%）
• 产品线利润贡献分布

Python实现：

import numpy as np
import matplotlib.pyplot as plt

# 数据准备
categories = ['Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun']
values = [45, 56, 38, 72, 63, 88, 41]
theta = np.linspace(0, 2*np.pi, len(categories), endpoint=False)

# 创建极坐标图
plt.figure(figsize=(8, 8))
ax = plt.subplot(111, polar=True)

# 绘制环形柱状图
bars = ax.bar(theta, values, width=0.5, 
             color=plt.cm.viridis(np.linspace(0,1,len(categories))))

# 设置标签
ax.set_xticks(theta)
ax.set_xticklabels(categories)
ax.set_rlabel_position(315)
plt.title('Weekly Activity Distribution', pad=20)
plt.show()

输出效果：
在这里插入图片描述

3. 子弹图 (Bullet Graph)

核心功能：多指标综合评估（实际值 vs 目标值）
进阶特性：
• 颜色编码：不同颜色区代表状态（如绿色-达标、黄色-预警、红色-未达标）
• 刻度线：显示目标阈值与实际值位置

应用场景：
• 门店KPI达成度监控（销售额、客流量、转化率）
• 项目风险管理（进度、成本、质量）

Python实现：

import matplotlib.pyplot as plt
import numpy as np


def create_bullet_chart(data, target, limits, colors, title=""):

    fig, ax = plt.subplots(figsize=(8, 2))
    ax.set_aspect('auto')
    ax.set_yticks([1])
    ax.set_yticklabels([title])


    prev_limit = 0
    for idx, lim in enumerate(limits):
        ax.barh([1], lim - prev_limit, left=prev_limit, height=0.3, color=colors[idx])
        prev_limit = lim


    ax.barh([1], data, height=0.1, left=0, color='black')


    ax.axvline(target, color='black', ymin=0.1, ymax=0.9, linewidth=1.5)


    ax.spines['bottom'].set_visible(False)
    ax.spines['top'].set_visible(False)
    ax.spines['right'].set_visible(False)
    ax.spines['left'].set_visible(False)
    ax.xaxis.set_ticks_position('bottom')

    return ax



if __name__ == "__main__":

    value = 65
    target = 75
    ranges = [20, 60, 100]
    colors = ['#FF9999', '#E5E5E5', '#99FF99']  

    # 生成图表
    create_bullet_chart(value, target, ranges, colors, title="Sales Performance")
    plt.show()

输出效果：
在这里插入图片描述

4. 哑铃图 (Dumbbell Chart)

核心功能：双变量分布与中心趋势对比
进阶特性：
• 箱线图集成：显示数据分布范围
• 连接线：标记中位数或均值

应用场景：
• 用户生命周期价值（CLV）分析（新用户 vs 老用户）
• 产品尺寸规格分布（长度 vs 宽度）

Python实现：

import pandas as pd
import matplotlib.pyplot as plt

# 创建示例数据
data = {
    'Country': ['USA', 'China', 'Japan', 'Germany', 'India'],
    '2020': [21.4, 14.7, 5.0, 3.8, 2.9],
    '2022': [25.1, 18.3, 6.1, 4.2, 3.5]
}
df = pd.DataFrame(data)

# 绘制哑铃图
plt.figure(figsize=(10, 6))
for i in range(len(df)):
    plt.plot([df['2020'][i], df['2022'][i]], [i, i], 
             color='grey', linewidth=2)
    plt.scatter(df['2020'][i], i, color='blue', s=100, zorder=3)
    plt.scatter(df['2022'][i], i, color='red', s=100, zorder=3)

plt.yticks(range(len(df)), df['Country'])
plt.title('GDP Comparison (2020 vs 2022)')
plt.xlabel('GDP (Trillion USD)')
plt.grid(axis='x', linestyle='--')
plt.show()

输出效果：
在这里插入图片描述

5. 雷达图 (Radar Chart)

核心功能：多维度属性对比（需标准化数据）
进阶特性：
• 数据归一化：统一量纲避免轴权重失衡
• 网格线：辅助多维度评分

应用场景：
• 员工能力矩阵评估（技术、沟通、领导力等）
• 产品竞争力分析（价格、质量、服务、品牌）

Python实现：

import numpy as np
import matplotlib.pyplot as plt

# 数据准备
categories = ['Design', 'Functionality', 'Usability', 'Performance', 'Price']
product_A = [4.2, 4.5, 4.0, 4.8, 3.5]
product_B = [3.8, 4.0, 4.2, 4.5, 4.0]

# 角度计算
angles = np.linspace(0, 2*np.pi, len(categories), endpoint=False).tolist()
angles += angles[:1]  # 闭合圆形

# 创建极坐标图
fig = plt.figure(figsize=(8, 8))
ax = fig.add_subplot(111, polar=True)

# 绘制数据
for values, color, label in zip([product_A, product_B],
                               ['#1f77b4', '#ff7f0e'],
                               ['Product A', 'Product B']):
    values += values[:1]
    ax.plot(angles, values, color=color, linewidth=2, label=label)
    ax.fill(angles, values, color=color, alpha=0.25)

# 设置标签
ax.set_theta_offset(np.pi/2)
ax.set_theta_direction(-1)
ax.set_thetagrids(np.degrees(angles[:-1]), categories)
plt.legend(loc='upper right')
plt.title('Product Feature Comparison')
plt.show()

输出效果：
在这里插入图片描述

6. 平行坐标图 (Parallel Coordinates)

核心功能：高维数据多维度排序与模式识别
进阶特性：
• 投影方向优化：通过主成分分析（PCA）降维
• 色彩映射：按类别区分观测点

应用场景：
• 客户分群（RFM模型 + 行为特征）
• 基因表达谱分析（成千上万个基因变量）

Python实现：

import pandas as pd
import matplotlib.pyplot as plt
from pandas.plotting import parallel_coordinates

# 加载数据
data = {
    'Class': ['A', 'A', 'B', 'B', 'C', 'C'],
    'Feature1': [1.2, 1.5, 2.0, 2.3, 1.8, 2.1],
    'Feature2': [3.4, 3.1, 4.0, 3.8, 3.5, 3.9],
    'Feature3': [5.6, 5.8, 6.2, 6.0, 5.9, 6.1]
}
df = pd.DataFrame(data)

# 绘制平行坐标图
plt.figure(figsize=(10, 6))
parallel_coordinates(df, 'Class', color=['#1f77b4', '#ff7f0e', '#2ca02c'])
plt.title('Parallel Coordinates Plot')
plt.grid(linestyle='--', alpha=0.7)
plt.xticks(rotation=45)
plt.show()

输出效果：
在这里插入图片描述

7. 词云图 (Word Cloud)

核心功能：文本高频词权重可视化
进阶特性：
• 字体排版：支持自定义字体与旋转角度
• 关键词突出：通过颜色区分情感极性（如正面/负面）

应用场景：
• 电商评论情感分析关键词提取
• 博客文章主题建模（LDA结果可视化）

Python实现：

from wordcloud import WordCloud
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

font_path = fm.findfont(fm.FontProperties(family='Microsoft YaHei'))

# 生成词云数据
text = """Python数据分析 机器学习 深度学习 
数据可视化 自然语言处理 神经网络 
大数据 人工智能 特征工程 模型训练"""

# 创建词云对象
wc = WordCloud(
    width=800,
    height=400,
    background_color='white',
    font_path=font_path,  # 使用自动找到的字体路径
    colormap='viridis',
    max_words=200
)

# 生成并显示词云
plt.figure(figsize=(10, 5))
wc.generate(text)
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.title('AI技术关键词云')
plt.show()

输出效果：
在这里插入图片描述

二、图表对比与选型指南

图表类型	比较维度	排序能力	适用数据规模	工具复杂度	典型案例
柱状图	单维度	强	小到中等	低	销售额品类对比
环形柱状图	单维度	强	≤5类	中	市场份额占比
子弹图	多维度	弱	中等	中	KPI达成度仪表盘
哑铃图	双维度	强	中等	中	用户留存率分布
雷达图	多维度	弱	≤8维	高	员工能力评估
平行坐标图	高维度	弱	大	高	客户多特征分群
词云图	文本频率	弱	大	低	社交媒体情感分析

三、结语

选择合适的可视化图表需结合数据维度、比较目标及受众需求。对于简单排序，柱状图是首选；处理多维数据时，雷达图或平行坐标图更高效；文本场景则依赖词云图。通过Python的Matplotlib、Seaborn等库，可快速实现这些图表，提升数据表达力，对于实际需求，我们应因地制宜选择合适的图表，才能达到最佳的数据可视化效果。