机器学习中的多标签分类与模型选择
1. 多标签分类简介
多标签分类是一种监督学习问题,与单标签分类不同的是,它允许一个实例关联多个标签。单标签分类(如二元或多类分类)中,每个实例仅与一个类别标签相关联。
在多标签分类里,有一个 MultiOutputClassifier 用于分类,它和一对其余(OVR)策略类似,会为每个类别拟合一个分类器。但不同的是,它可以为单个预测输出多个类别,而非单个预测结果。
多标签分类的任务是通过分析已知标签集的训练实例,来预测未知实例的标签集。训练集由实例组成,每个实例都与一组标签相关联。多类分类和多标签分类的区别在于,多类问题中的类别是互斥的,而多标签问题中的任务在某种程度上是相关的。例如,在多类分类中,一个水果只能是苹果或梨,不能同时是两者;而在多标签分类中,一篇文本可以同时涉及宗教、政治、金融或教育,也可以不涉及这些内容。
预测建模的分类挑战是从输入中生成一个类别标签,这与回归任务不同,回归任务是预测一个数值。分类任务通常预测单个标签,也可以预测两个或多个类别标签的概率。在这些情况下,由于类别是互斥的,分类任务假设输入只属于一个类别。但在某些分类任务中,需要预测多个类别标签,这意味着属于一个类别或使用一个类别标签并非互斥的,这种活动被称为多标签分类。在多标签分类中,每个输入样本必须同时产生零个或多个标签,并且每个输出都需要这些标签。
2. 模型选择概述
模型选择是从一组训练数据模型中选择最终学习机器模型的过程。版本选择技术可以应用于各种不同形式的模型(如检索、支持向量机(SVM)和k - 近邻(KNN)),以及由不同模型参数配置的同一类型的所有模型(如SVM中不同的
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



