分类学习:原理、方法与评估
1. 分类器基础概念
分类器是一种接受一组特征并为其生成类别标签的程序。类别数量可以是两个或多个,通常多类别分类器是由二分类器构建而成。分类器的构建依赖于一组带标签的示例,通过这些示例得出一个规则,将标签分配给任何新的示例。在一般问题中,我们有一个训练数据集 $(x_i, y_i)$,其中特征向量 $x_i$ 包含不同类型对象属性的测量值,而 $y_i$ 是表示生成该示例对象类型的标签。
分类器在高级视觉领域是至关重要的工具,因为许多问题可以抽象成分类的形式。下面我们将详细介绍分类的基本概念、构建方法以及一些重要的实用技巧。
2. 分类、误差与损失
2.1 使用损失来确定决策
分类规则的选择必须考虑犯错的成本。二分类器可能会犯两种错误:假阳性(将负样本分类为正样本)和假阴性(将正样本分类为负样本)。例如,在疾病诊断中,如果疾病危险但易于治疗,那么假阴性错误的代价很高,而假阳性错误的代价较低;反之,如果疾病不危险但治疗困难且痛苦,那么假阳性错误的代价高,假阴性错误的代价低。
我们用 $(i → j)$ 表示一个类型为 $i$ 的项目被分类为类型 $j$ 的项目。对于二分类情况,有四种可能的结果,每种结果都有其对应的成本,即损失。损失函数 $L(i → j)$ 表示一个类型为 $i$ 的对象被分类为类型 $j$ 时所产生的损失。正确分类的损失 $L(i → i)$ 应为零,而其他损失可以是任意正数。
特定分类策略的风险函数是使用该策略时的预期损失,总风险是使用分类器时的总预期损失,它取决于策略而非具体示例。对于二分类问题,使用策略 $s$ 的总风险为:
$R(
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



