Phoenix项目数据模式定义指南：从基础到高级应用-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00422/article/details/148490360

Phoenix项目数据模式定义指南：从基础到高级应用

phoenix AI Observability & Evaluation 项目地址: https://gitcode.com/gh_mirrors/phoenix13/phoenix

前言

在机器学习模型监控和分析领域，Phoenix项目提供了一套强大的工具集，其中数据模式定义是使用该工具的基础环节。本文将全面介绍如何为Phoenix定义数据模式，帮助开发者高效地组织模型推理数据，为后续的可观测性分析打下坚实基础。

核心概念解析

在Phoenix中，数据模式(Schema)是连接原始数据与可视化分析界面的桥梁。它定义了数据框中各列的角色和属性，包括：

预测值(Predictions): 模型输出的结果
真实值(Actuals/Ground Truth): 实际观测值
特征(Features): 模型输入的特征
标签(Tags): 用于分析和分组的元数据
嵌入向量(Embeddings): 高维特征表示

基础数据模式定义

预测与真实值定义

考虑一个广告点击预测的二元分类模型，数据可能包含以下字段：

import phoenix as px

# 示例数据框结构
"""
| timestamp           | prediction_score | prediction | target    |
|---------------------|------------------|------------|-----------|
| 2023-03-01 02:02:19 | 0.91             | click      | click     |
| 2023-02-17 23:45:48 | 0.37             | no_click   | no_click  |
"""

schema = px.Schema(
    timestamp_column_name="timestamp",
    prediction_score_column_name="prediction_score",
    prediction_label_column_name="prediction",
    actual_label_column_name="target",
)

关键参数说明：

timestamp_column_name: 时间戳列，用于时序分析
prediction_score_column_name: 预测概率值
prediction_label_column_name: 预测类别标签
actual_label_column_name: 真实标签

特征与标签定义

在金融风控场景中，我们可能需要区分模型特征和分析标签：

schema = px.Schema(
    prediction_label_column_name="predicted",
    actual_label_column_name="target",
    feature_column_names=[
        "fico_score", 
        "merchant_id",
        "loan_amount",
        # 其他特征...
    ],
    tag_column_names=[
        "age",
        "gender",
    ],
)

特征与标签的区别：

特征：直接影响模型预测的输入变量
标签：不影响预测但可用于分析分组的元数据

高级模式定义技巧

隐式特征定义

当特征数量较多时，可以使用隐式定义方式：

# 乳腺癌诊断数据集示例
schema = px.Schema(
    prediction_label_column_name="predicted",
    actual_label_column_name="target",
)

Phoenix会自动将未在schema中明确指定的列识别为特征。

排除特定列

对于包含非特征列的数据，需要显式排除：

schema = px.Schema(
    prediction_label_column_name="predicted",
    actual_label_column_name="target",
    excluded_column_names=[
        "hospital",
        "insurance_provider",
    ],
)

嵌入向量处理

Phoenix支持处理嵌入向量，这对于NLP、CV等应用特别重要：

# 信用卡欺诈检测中的交易嵌入示例
schema = px.Schema(
    prediction_label_column_name="predicted",
    actual_label_column_name="target",
    embedding_feature_column_names={
        "transaction_embedding": px.EmbeddingColumnNames(
            vector_column_name="embedding_vector"
        )
    },
    feature_column_names=[
        "fico_score",
        "merchant_id",
        # 其他特征...
    ],
)

嵌入向量处理要点：