分类方法的原理与应用
1. 分类概述
分类在教育场景中有助于我们聚焦于单个方法,但在现实世界问题里,往往需要在不同的分类模型中做出选择。
2. 分类的错误度量
2.1 二分类错误度量
为了评估分类器,需要指定错误度量。在二分类决策中,本质上所有的错误度量都基于四个基本错误:
- 真正类(TP) :分类器正确预测为正类的样本数量。
- 真负类(TN) :分类器正确预测为负类的样本数量。
- 假正类(FP) :分类器错误预测为正类的样本数量。
- 假负类(FN) :分类器错误预测为负类的样本数量。
对于给定的测试数据集 (D_{Test} = {(x_1, y_1), \ldots, (x_T, y_T)}),这些基本错误可以通过以下公式估计:
- (TP = \sum_{i=1}^{T} I(M(x_i) = y_i|y_i = +1))
- (TN = \sum_{i=1}^{T} I(M(x_i) = y_i|y_i = -1))
- (FP = \sum_{i=1}^{T} I(M(x_i) \neq y_i|y_i = -1))
- (FN = \sum_{i=1}^{T} I(M(x_i) \neq y_i|y_i = +1))
其中,(I()) 是指示函数,当参数为真时返回 1,否则返回 0。
二分类结果可以用列联表(或混淆矩阵)方便地总结,如下表所示:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



