42、分类学习:原理、方法与评估

分类学习:原理、方法与评估

1. 分类器基础概念

分类器是一种接受一组特征并为其生成类别标签的程序。类别数量可以是两个或多个,通常多类别分类器是由二分类器构建而成。分类器的构建依赖于一组带标签的示例,通过这些示例得出一个规则,将标签分配给任何新的示例。在一般问题中,我们有一个训练数据集 $(x_i, y_i)$,其中特征向量 $x_i$ 包含不同类型对象属性的测量值,而 $y_i$ 是表示生成该示例对象类型的标签。

分类器在高级视觉领域是至关重要的工具,因为许多问题可以抽象成分类的形式。下面我们将详细介绍分类的基本概念、构建方法以及一些重要的实用技巧。

2. 分类、误差与损失
2.1 使用损失来确定决策

分类规则的选择必须考虑犯错的成本。二分类器可能会犯两种错误:假阳性(将负样本分类为正样本)和假阴性(将正样本分类为负样本)。例如,在疾病诊断中,如果疾病危险但易于治疗,那么假阴性错误的代价很高,而假阳性错误的代价较低;反之,如果疾病不危险但治疗困难且痛苦,那么假阳性错误的代价高,假阴性错误的代价低。

我们用 $(i → j)$ 表示一个类型为 $i$ 的项目被分类为类型 $j$ 的项目。对于二分类情况,有四种可能的结果,每种结果都有其对应的成本,即损失。损失函数 $L(i → j)$ 表示一个类型为 $i$ 的对象被分类为类型 $j$ 时所产生的损失。正确分类的损失 $L(i → i)$ 应为零,而其他损失可以是任意正数。

特定分类策略的风险函数是使用该策略时的预期损失,总风险是使用分类器时的总预期损失,它取决于策略而非具体示例。对于二分类问题,使用策略 $s$ 的总风险为:
$R(

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值