使用online-ml/river实现多类别分类任务详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00957/article/details/148505658

使用online-ml/river实现多类别分类任务详解

river 🌊 Online machine learning in Python 项目地址: https://gitcode.com/gh_mirrors/ri/river

多类别分类概述

多类别分类是机器学习中的一项核心任务，其目标是从一组固定的类别中预测出正确的类别。与二分类不同，多类别分类需要处理两个以上的类别选项。在online-ml/river框架中，分类器会为每个可能的类别输出一个概率分布，表示该样本属于各个类别的可能性。

数据集介绍

我们以图像分割数据集(ImageSegments)为例，该数据集包含2310个样本，每个样本有18个特征，需要将图像片段分类为7个类别：

brickface(砖墙)
sky(天空)
foliage(树叶)
cement(水泥)
window(窗户)
path(小路)
grass(草地)

数据流处理

online-ml/river的一个显著特点是其流式数据处理能力。我们可以像处理数据流一样遍历整个数据集：

from river import datasets

dataset = datasets.ImageSegments()
for x, y in dataset:
    # x是特征字典，y是类别标签
    pass

查看第一个样本的特征和标签：

x, y = next(iter(dataset))
print(x)  # 打印特征字典
print(y)  # 打印类别标签'path'

模型初始化与训练

我们使用Hoeffding决策树作为分类器。Hoeffding树是一种适用于数据流环境的增量决策树算法，它能够在有限内存条件下高效学习。

from river import tree

model = tree.HoeffdingTreeClassifier()

初始状态下，模型对新样本的预测为空，因为它尚未学习任何数据模式：

print(model.predict_proba_one(x))  # 输出: {}
print(model.predict_one(x))  # 输出: None

增量学习

在线学习的特点是模型可以逐个样本进行学习。当我们用第一个样本更新模型后：

model.learn_one(x, y)
model.predict_proba_one(x)  # 输出: {'path': 1.0}

此时模型只认识'path'这一个类别，因此会给出100%的概率。随着更多样本的输入，模型会逐步学习并识别所有7个类别。

渐进式验证

在线学习中常用的评估方法是渐进式验证(progressive validation)，即在预测后立即用真实标签更新模型，并计算指标：

from river import metrics

model = tree.HoeffdingTreeClassifier()
metric = metrics.ClassificationReport()

for x, y in dataset:
    y_pred = model.predict_one(x)
    model.learn_one(x, y)
    if y_pred is not None:
        metric.update(y, y_pred)
        
print(metric)

online-ml/river提供了便捷的评估函数：

from river import evaluate

model = tree.HoeffdingTreeClassifier()
metric = metrics.ClassificationReport()

evaluate.progressive_val_score(dataset, model, metric)