机器学习分类方法与维度挑战解析
1. 概率决策与多类别分类
在实际应用中,我们常常需要将概率转化为决策。例如,判断一个鸡蛋是否受精。虽然有时某个类别概率为 1,其他为 0,但更多时候区域模糊或重叠,多个类别都有非零概率。最终决策不仅受计算机预测影响,还需考虑人为因素和决策的实际意义。
以鸡蛋分类为例,最初我们只区分受精和未受精鸡蛋。但随着了解深入,发现未受精鸡蛋有两种情况:从未受精的“yolker”可食用,而受精后胚胎停止发育死亡的“quitter”不能售卖,因其可能爆裂传播有害细菌。这样就有了三类鸡蛋:“winners”(可存活的受精鸡蛋)、“yolkers”(安全的未受精鸡蛋)和“quitters”(不安全的受精鸡蛋)。
将新输入分配到这三个类别之一的任务就是多类别分类。当有多个类别时,我们要找到不同类别区域之间的边界。训练好的多类别分类器收到新样本后,会判断样本所属区域并分配相应类别。
在这个例子中,我们还可以为每个样本添加更多特征,如鸡蛋颜色、平均周长和产蛋时间等,这样每个鸡蛋就有了五个维度的数据。虽然难以直观想象五维空间,但可以类比二维空间的情况。在二维空间中,数据点会聚集在一起,我们可以绘制边界线或曲线;在高维空间中,同样可以将空间划分为多个小的高维区域,每个区域定义一个不同的类别。不过,随着维度增加,算法的运行时间和内存消耗通常也会增加。
2. 多类别分类方法
2.1 一对其余(One - Versus - Rest,OvR)
该方法也被称为一对所有(One - Versus - All,OvA)、一抗所有(One - Against - All,OAA)或二元相关性方法。假设数
超级会员免费看
订阅专栏 解锁全文
15万+

被折叠的 条评论
为什么被折叠?



