Google Cloud Platform机器学习训练：使用What-If Tool分析模型公平性-优快云博客

Google Cloud Platform机器学习训练：使用What-If Tool分析模型公平性

training-data-analyst Labs and demos for courses for GCP Training (http://cloud.google.com/training). 项目地址: https://gitcode.com/gh_mirrors/tr/training-data-analyst

前言

在机器学习模型的开发和应用过程中，公平性是一个至关重要的考量因素。本教程将介绍如何使用Google Cloud Platform上的机器学习工具，特别是What-If Tool，来分析模型预测中的潜在偏见问题。

学习目标

掌握如何针对已部署模型使用What-if Tool
探索数据集的基本属性
分析模型结果中的偏见表现
了解What-if Tool提供的偏见修复建议

项目概述

本项目使用XGBoost分类器模型对UCI人口普查数据集进行预测，判断个人年收入是否超过5万美元。我们将通过What-If Tool可视化模型在测试数据上的表现，特别关注模型预测中的公平性问题。

环境准备

首先需要导入必要的Python库并设置环境：

import os
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
import witwidget
from witwidget.notebook.visualization import (
    WitWidget, 
    WitConfigBuilder,
)
pd.options.display.max_columns = 50

项目配置

设置GCP项目ID和存储路径：

PROJECT = "your-project-id"  # 替换为你的GCP项目ID
BUCKET = f"gs://{PROJECT}"
MODEL = 'xgboost_model'
VERSION = 'v1'
MODEL_DIR = os.path.join(BUCKET, MODEL)

# 设置环境变量
os.environ.update({
    'PROJECT': PROJECT,
    'BUCKET': BUCKET,
    'MODEL': MODEL,
    'VERSION': VERSION,
    'MODEL_DIR': MODEL_DIR
})

模型部署

部署XGBoost模型到AI Platform：

%%bash

gcloud config set project $PROJECT

gsutil mb $BUCKET
gsutil cp gs://cloud-training-demos/mlfairness/model.bst $MODEL_DIR/model.bst

gcloud ai-platform models list | grep $MODEL || gcloud ai-platform models create $MODEL

gcloud ai-platform versions create $VERSION \
  --model=$MODEL \
  --framework='XGBOOST' \
  --runtime-version=1.14 \
  --origin=$MODEL_DIR \
  --python-version=3.5 \
  --project=$PROJECT

数据准备

下载测试数据和预处理结果：

%%bash

gsutil cp gs://cloud-training-demos/mlfairness/income.pkl .
gsutil cp gs://cloud-training-demos/mlfairness/x_test.npy .
gsutil cp gs://cloud-training-demos/mlfairness/y_test.npy .

加载数据并查看特征：

features = pd.read_pickle('income.pkl')
x_test = np.load('x_test.npy')
y_test = np.load('y_test.npy')

features.head()

数据预处理说明

XGBoost要求所有特征值必须为数值型，因此原始数据集进行了以下转换：

性别特征："Female"转换为1，"Male"转换为2
使用Pandas的get_dummies函数将分类特征转换为数值特征
例如"Education"列被转换为多个子列，如"Education_HS-grad"等

准备What-If Tool输入

组合特征和标签，准备2000个测试样本：

num_wit_examples = 2000
test_examples = np.hstack((
    x_test[:num_wit_examples],
    y_test[:num_wit_examples].reshape(-1, 1)
))

初始化What-If Tool

配置What-If Tool并连接到AI Platform模型：

FEATURE_NAMES = features.columns.tolist() + ['income_prediction']

def adjust(pred):
    return [1 - pred, pred]

config_builder = (
    WitConfigBuilder(test_examples.tolist(), FEATURE_NAMES)
    .set_ai_platform_model(PROJECT, MODEL, VERSION, adjust_prediction=adjust)
    .set_target_feature('income_prediction')
    .set_label_vocab(['low', 'high'])
)

WitWidget(config_builder, height=800)