分类学习入门:原理、误差与优化策略
在许多领域中,分类器都是一项关键工具,它能接收一组特征并为其生成类别标签。下面我们将深入探讨分类器的相关概念、误差分析以及一些实用的优化技巧。
1. 分类器基础概念
分类器可被视为一种规则,它接收特征向量并返回类别标签。在实际应用中,我们需要考虑误分类的成本,以制定出能使预期误分类成本尽可能小的规则。通常,我们假设存在两个类别,分别标记为 1 和 -1。
2. 利用损失确定决策
在分类过程中,错误决策会带来不同的损失。对于二分类器,可能会出现两种错误:假阳性(将负例分类为正例)和假阴性(将正例分类为负例)。
以疾病诊断为例,如果疾病危险但治疗安全简单,那么假阴性的代价高昂,而假阳性的代价较低;反之,如果疾病不危险但治疗困难且痛苦,那么假阳性的代价高昂,假阴性的代价较低。
我们用 (i → j) 表示将类型 i 的物品分类为类型 j 的结果,每种结果都有其对应的损失,即损失函数 L(i → j)。正确分类的损失 L(i → i) 为 0,其他损失可以是任意正数。
特定分类策略的风险函数是使用该策略时的预期损失,总风险则是使用分类器时的总预期损失。对于二分类问题,使用策略 s 的总风险为:
[R(s) = p(-1 → 1|using s)L(-1 → 1) + p(1 → -1|using s)L(1 → -1)]
理想的策略是使总风险最小化。
2.1 最小化总风险的二分类器
假设分类器可在两个类别中选择,且已知损失函数。在特征空间中存在一个决策边界,边界一侧的点属于类别一,另一侧的点属于类别二。 <
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



