分类问题
分类问题是机器学习当中的一个基本问题,通常被分为以下三类:
- 二元分类问题:二元输出
- 多类分类问题:输出许多离散类标签之一。 类标签是互斥的
- 多标签分类问题:一个样本可以分配给多个标签
二分类问题便是分类任务当中有两个类别。一个典型的例子是判断是不是垃圾邮件,判断的结果只有是垃圾邮件和不是垃圾邮件两个结果;另一个典型的例子是判断一张图片是不是猫,训练一个分类器,输入一张图片,输出结果为是猫或者不是猫。
多类分类问题则表示分类任务中有多个类别。一个典型的例子是对一张水果的图片进行分类,图中的水果可能是苹果,橘子,香蕉亦或者是别的类型的水果。多类分类问题的另一个特征是一个样本有且只有一个标签,一个水果可以是苹果,也可以是香蕉,但是不可能同时是苹果和香蕉。
多标签分类则是给每个样本一系列的目标标签,可以想象成一个数据点的各个属性不是相互排斥的。一个典型的例子是文档分类,一个文档可以同时包含金融,政治,宗教相关的话题。
多类问题的第一个策略:直接分成多类。
多类问题的第二个策略:一对一的策略。
一对其余策略。
分类系统的构建通常遵循以下四个步骤:
- 收集训练数据。比如 (x,y)对,x表示输入,y则表示输出类标签
- 查找表示输入数据的特征
- (可选)训练分类器以找到最佳映射函数 f
- 将分类器应用于未观察到的数据(检验/应用)