模式识别中的误差估计
1. 误差估计的重要性
误差估计在涉及分类的科学应用中起着至关重要的作用,它能确定推断分类器预测的准确性。然而,在大多数模式识别和机器学习教材中,这一主题常常被忽视。很多教材只是描述了一系列从数据中训练分类器的规则,却对如何确定推断模型的准确性敷衍了事。
误差率可以是总体上的整体误差率,也可以是各个类别的误差率。如果知道总体分布,原则上可以精确计算分类器的误差。但通常情况下,我们并不了解总体分布,所以需要从样本数据中估计误差。当样本量相对于特征数量足够大时,可以将样本分为训练集和测试集,在训练集上设计分类器,然后在测试集上进行测试,从而获得准确的误差估计。但在样本量较小的情况下,就必须在同一数据上进行训练和测试,这也是我们关注的重点,这种情况在数据获取成本高、耗时或困难的场景中很常见,即使在“大数据”应用中,由于测量数量远远超过样本点数量,也常常会遇到小样本的问题。
2. 分类器与模式识别模型
2.1 分类器的定义
分类器定义了特征与标签(目标随机变量)相对于联合特征 - 标签分布的关系。分类器的定义有两种情况:一种是从特征 - 标签分布中推导出来的,因此与该分布内在相关,例如最优分类器;另一种是不直接从特征 - 标签分布中推导出来的,此时与该分布外在相关。在这两种情况下,分类误差率都是内在的,因为它们是在给定分类器的情况下从分布中推导出来的。
2.2 模式识别模型
一个分类器和一个给定的误差率共同构成一个模式识别模型。如果分类器与分布内在相关,由于特征 - 标签分布已知,误差率可以直接推导出来,就不存在误差估计的问题。但如果分类器与分布外在相关,通常情况下分布是未知
超级会员免费看
订阅专栏 解锁全文
2235

被折叠的 条评论
为什么被折叠?



