机器学习分类方法及维度诅咒解析
1. 概率与决策
在实际分类场景中,我们常常需要将概率转化为决策。例如判断一个鸡蛋是否受精,虽然有时某个类别概率为 1,其他为 0,但更多情况下,类别区域模糊或重叠,多个类别可能都有非零概率。最终决策不仅受计算机预测影响,还需考虑人为因素以及决策对我们的意义。
2. 二维多类分类
2.1 鸡蛋分类问题
最初我们只区分受精和未受精鸡蛋,随着对鸡蛋了解增多,发现未受精鸡蛋有两种情况:一种是从未受精的“yolker”,可食用;受精鸡蛋中,能卖给其他农民的是“winners”,但有些受精蛋中胚胎停止发育死亡,称为“quitters”,这类鸡蛋不能售卖,因为可能爆裂传播有害细菌,需要识别并处理。
2.2 多类分类概念
现在有了三类鸡蛋:“winners”(可存活的受精蛋)、“yolkers”(安全的未受精蛋)和“quitters”(不安全的受精蛋)。假设仅根据鸡蛋的重量和长度就能区分这三类鸡蛋。多类分类就是为新输入样本分配这三类中的某一类。训练好的多类分类器接收到新样本后,会确定样本所属区域,进而分配对应类别。
2.3 增加特征维度
我们还可以为每个样本增加更多特征,如鸡蛋颜色、平均周长、产蛋时间等,这样每个鸡蛋就有了五个维度的数据。虽然难以直观想象五维空间,但可以类比二维空间。在二维空间中,数据点会聚集,我们能绘制边界线(或曲线)区分不同类别;在高维空间中,大部分情况也是如此,我们可以将五维空间划分为多个小的五维区域,每个区域对应一个类别。不过,随着维度增加,算法的运行时间和内存消耗通常也会增加。
超级会员免费看
订阅专栏 解锁全文
8

被折叠的 条评论
为什么被折叠?



