Azure机器学习自动化ML教程：信用卡欺诈分类实战-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00991/article/details/148548794

Azure机器学习自动化ML教程：信用卡欺诈分类实战

MachineLearningNotebooks Python notebooks with ML and deep learning examples with Azure Machine Learning Python SDK | Microsoft 项目地址: https://gitcode.com/gh_mirrors/ma/MachineLearningNotebooks

前言

在金融风控领域，信用卡欺诈检测是一个经典的应用场景。传统方法需要数据科学家手动尝试多种算法和参数组合，耗时耗力。Azure机器学习服务提供的自动化机器学习(AutoML)功能，可以自动完成这些繁琐的工作，快速找到最优模型。本教程将带您使用Azure AutoML构建一个信用卡欺诈分类模型。

环境准备

首先需要导入必要的Python库并创建工作区实验：

import logging
from matplotlib import pyplot as plt
import pandas as pd
import numpy as np

import azureml.core
from azureml.core.experiment import Experiment
from azureml.core.workspace import Workspace
from azureml.core.dataset import Dataset
from azureml.train.automl import AutoMLConfig

创建工作区连接和实验对象：

ws = Workspace.from_config()
experiment_name = "fraud-classification-automl-tutorial"
experiment = Experiment(ws, experiment_name)

数据准备

我们使用一个公开的信用卡交易数据集，其中包含正常交易和欺诈交易的记录。数据集包含28个经过PCA处理的特征(命名为V1-V28)，以及交易金额(Amount)和类别标签(Class)。

data = "https://automlsamplenotebookdata.blob.core.windows.net/automl-sample-notebook-data/creditcard.csv"
dataset = Dataset.Tabular.from_delimited_files(data)
training_data, validation_data = dataset.random_split(percentage=0.8, seed=223)
label_column_name = "Class"

这里我们将数据按8:2的比例随机分割为训练集和验证集，确保实验可重复性。

自动化ML配置

AutoML的核心是AutoMLConfig对象，它定义了训练任务的各种参数：

automl_settings = {
    "n_cross_validations": 3,
    "primary_metric": "average_precision_score_weighted",
    "experiment_timeout_hours": 0.25,
    "verbosity": logging.INFO,
    "enable_stack_ensemble": False,
}

automl_config = AutoMLConfig(
    task="classification",
    debug_log="automl_errors.log",
    training_data=training_data,
    label_column_name=label_column_name,
    **automl_settings,
)

关键参数说明：

task: 指定为分类任务
primary_metric: 使用加权平均精确率作为主要评估指标
n_cross_validations: 3折交叉验证
experiment_timeout_hours: 设置实验超时时间(实际应用中可适当延长)

启动训练

提交实验开始自动化训练过程：

local_run = experiment.submit(automl_config, show_output=True)

训练过程中，AutoML会自动尝试：

多种特征工程方法(标准化、归一化等)
不同分类算法(逻辑回归、随机森林、梯度提升树等)
各种超参数组合
模型集成方法

结果分析

训练完成后，获取最佳模型：

best_run, best_model = local_run.get_output()

可以通过Azure机器学习工作室查看详细的训练过程和分析报告，包括：

各算法的性能对比
特征重要性分析
模型解释性图表

模型验证

在验证集上测试模型性能：

X_test_df = validation_data.drop_columns(columns=[label_column_name]).to_pandas_dataframe()
y_test_df = validation_data.keep_columns(columns=[label_column_name], validate=True).to_pandas_dataframe()

y_pred = best_model.predict(X_test_df)

绘制混淆矩阵可视化预测结果：

from sklearn.metrics import confusion_matrix
import numpy as np
import itertools

cf = confusion_matrix(y_test_df.values, y_pred)
plt.imshow(cf, cmap=plt.cm.Blues, interpolation="nearest")
# ...省略绘图代码...
plt.show()