wandb自定义可视化：创建交互式图表展示实验结果-优快云博客

wandb自定义可视化：创建交互式图表展示实验结果

【免费下载链接】wandb 🔥 A tool for visualizing and tracking your machine learning experiments. This repo contains the CLI and Python API. 项目地址: https://gitcode.com/gh_mirrors/wa/wandb

在机器学习实验中，如何将枯燥的数字转化为直观的洞察？wandb（Weights & Biases）提供了强大的自定义可视化功能，让你能够创建交互式图表来展示实验结果。本文将带你从零开始，掌握使用wandb创建自定义可视化的核心方法，解决实验数据展示不直观、难以对比分析的痛点。读完本文，你将能够：创建自定义交互式图表、理解wandb可视化的核心组件、掌握高级可视化技巧，以及学会如何在团队中分享你的可视化结果。

1. wandb可视化基础架构

wandb的可视化系统建立在Vega-Lite规范之上，通过CustomChart类实现高度定制化的数据展示。核心模块位于wandb/plot/custom_chart.py，其中定义了创建自定义图表的基础架构。

@dataclass
class CustomChartSpec:
    spec_name: str          # Vega-Lite规范名称
    fields: dict[str, Any]  # 数据字段映射
    string_fields: dict[str, Any]  # 字符串常量
    key: str = ""           # 图表标识
    panel_type: str = "Vega2"  # 面板类型
    split_table: bool = False  # 是否分离表格展示

这个数据类定义了自定义图表的核心规格，包括使用的Vega规范、数据字段映射关系以及展示选项。通过plot_table函数可以将数据表格与可视化规范结合，创建可直接在wandb界面中展示的交互式图表。

2. 核心可视化组件

wandb提供了多种预置可视化组件，位于wandb/plot目录下，包括常用的图表类型：

图表类型	函数	用途
混淆矩阵	confusion_matrix.py	展示分类模型的预测结果分布
直方图	histogram.py	显示数据分布情况
ROC曲线	roc_curve.py	评估二分类模型性能
散点图	scatter.py	展示两个变量间的关系
折线图	line.py	显示趋势变化

这些组件都基于CustomChart类实现，可以直接使用或作为自定义可视化的基础。每个组件都接受wandb.Table作为数据源，实现了数据与可视化的分离。

3. 创建自定义可视化的步骤

创建自定义可视化通常遵循以下步骤：

3.1 准备数据表格

首先需要将实验数据整理为wandb.Table格式，这是wandb可视化的标准数据容器：

import wandb

# 创建示例数据
data = [
    ["实验1", 0.85, 0.02],
    ["实验2", 0.88, 0.015],
    ["实验3", 0.92, 0.018],
]

# 创建wandb表格
table = wandb.Table(
    data=data,
    columns=["实验名称", "准确率", "损失值"]
)

3.2 定义字段映射

接下来需要定义数据字段与可视化规范之间的映射关系：

fields = {
    "x": "实验名称",    # x轴对应表格中的"实验名称"列
    "y": "准确率",      # y轴对应表格中的"准确率"列
    "color": "实验名称" # 颜色编码使用"实验名称"
}

string_fields = {
    "title": "模型准确率对比",  # 图表标题
    "x_label": "实验名称",      # x轴标签
    "y_label": "准确率"        # y轴标签
}

3.3 生成自定义图表

使用plot_table函数将数据表格与可视化规范结合：

custom_chart = wandb.plot_table(
    vega_spec_name="wandb/bar/v0",  # 使用内置的柱状图规范
    data_table=table,               # 数据表格
    fields=fields,                  # 字段映射
    string_fields=string_fields,    # 字符串常量
    split_table=False               # 不分离表格展示
)

3.4 记录并展示图表

最后将图表记录到wandb运行中：

with wandb.init(project="模型对比实验", name="自定义可视化示例") as run:
    run.log({"准确率对比": custom_chart})

4. 高级自定义技巧

4.1 使用自定义Vega-Lite规范

对于更复杂的可视化需求，可以使用自定义的Vega-Lite规范。首先需要在wandb后端注册规范，然后通过spec_name引用它：

# 使用自定义Vega-Lite规范
custom_chart = wandb.plot_table(
    vega_spec_name="my_org/custom_heatmap/v1",  # 自定义规范名称
    data_table=heatmap_data,
    fields={"values": "heatmap_values", "x_axis": "epochs", "y_axis": "parameters"},
    split_table=True
)

4.2 多图表组合展示

可以将多个图表组合到同一个面板中展示，便于对比分析：

# 记录多个相关图表
run.log({
    "模型性能": {
        "准确率趋势": accuracy_chart,
        "损失变化": loss_chart,
        "混淆矩阵": confusion_matrix_chart
    }
})

4.3 动态更新可视化

在长时间运行的实验中，可以动态更新可视化内容：

with wandb.init(project="长期训练监控") as run:
    for epoch in range(100):
        # 训练代码...
        
        # 每个epoch更新图表数据
        updated_table = update_table(epoch, accuracy, loss)
        live_chart = wandb.plot_table(
            vega_spec_name="wandb/line/v0",
            data_table=updated_table,
            fields={"x": "epoch", "y": "accuracy"}
        )
        run.log({"实时准确率": live_chart})

5. 实际应用示例

以下是一个完整的图像分类实验可视化示例，展示如何结合多种图表类型分析模型性能：

import wandb
import numpy as np
from sklearn.metrics import confusion_matrix, roc_curve

# 初始化wandb运行
with wandb.init(project="图像分类实验", name="resnet对比实验") as run:
    # 模拟实验数据
    num_classes = 10
    y_true = np.random.randint(0, num_classes, size=1000)
    y_pred = np.random.randint(0, num_classes, size=1000)
    y_probas = np.random.rand(1000, num_classes)
    
    # 创建混淆矩阵
    cm = confusion_matrix(y_true, y_pred)
    cm_table = wandb.Table(data=cm, columns=[f"类别{i}" for i in range(num_classes)])
    cm_chart = wandb.plot.confusion_matrix(
        probs=y_probas, y_true=y_true, preds=y_pred,
        class_names=[f"类别{i}" for i in range(num_classes)],
        title="模型混淆矩阵"
    )
    
    # 创建ROC曲线
    fpr, tpr, _ = roc_curve(y_true, y_probas[:, 0], pos_label=0)
    roc_data = np.column_stack((fpr, tpr))
    roc_table = wandb.Table(data=roc_data, columns=["假正例率", "真正例率"])
    roc_chart = wandb.plot.roc_curve(
        y_true, y_probas, title="ROC曲线"
    )
    
    # 记录所有可视化结果
    run.log({
        "混淆矩阵": cm_chart,
        "ROC曲线": roc_chart,
        "原始数据": wandb.Table(data=roc_data, columns=["假正例率", "真正例率"])
    })

6. 可视化最佳实践

6.1 数据准备

保持数据表格简洁，只包含可视化所需的列
使用明确的列名，避免缩写和模糊命名
对数据进行适当预处理（归一化、异常值处理等）

6.2 图表设计

为每个图表提供清晰的标题和轴标签
使用一致的颜色方案，特别是在对比多个实验时
适当使用split_table=True分离大型数据集和图表

6.3 交互设计

利用wandb的交互式功能：缩放、悬停详情、筛选
为关键数据点添加注释
提供图表间的联动，如点击一个图表中的数据点在另一个图表中高亮显示

7. 总结与展望

wandb的自定义可视化功能为机器学习实验提供了强大的数据展示工具，通过wandb/plot/custom_chart.py定义的框架，可以轻松创建从简单到复杂的各种交互式图表。无论是使用预置组件还是开发自定义Vega-Lite规范，都能帮助研究者更直观地理解实验结果，发现数据中的模式和趋势。

未来，wandb将继续增强可视化能力，包括更多预置图表类型、更强大的交互功能以及与其他数据分析工具的无缝集成。掌握自定义可视化技能，将使你在实验分析和结果分享方面迈出重要一步。

点赞收藏本文，关注获取更多wandb使用技巧！下一篇将介绍"如何使用wandb表格进行大规模实验数据分析"。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考