18、机器学习分类方法及维度诅咒解析

最新推荐文章于 2025-11-24 15:27:14 发布

java5

最新推荐文章于 2025-11-24 15:27:14 发布

阅读量19

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习的视觉之旅文章标签：机器学习分类方法维度诅咒

本文链接：https://blog.youkuaiyun.com/java5/article/details/151035710

深度学习的视觉之旅专栏收录该内容

68 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习分类方法及维度诅咒解析

1. 概率与决策

在实际分类场景中，我们常常需要将概率转化为决策。例如判断一个鸡蛋是否受精，虽然有时某个类别概率为 1，其他为 0，但更多情况下，类别区域模糊或重叠，多个类别可能都有非零概率。最终决策不仅受计算机预测影响，还需考虑人为因素以及决策对我们的意义。

2. 二维多类分类

2.1 鸡蛋分类问题

最初我们只区分受精和未受精鸡蛋，随着对鸡蛋了解增多，发现未受精鸡蛋有两种情况：一种是从未受精的“yolker”，可食用；受精鸡蛋中，能卖给其他农民的是“winners”，但有些受精蛋中胚胎停止发育死亡，称为“quitters”，这类鸡蛋不能售卖，因为可能爆裂传播有害细菌，需要识别并处理。

2.2 多类分类概念

现在有了三类鸡蛋：“winners”（可存活的受精蛋）、“yolkers”（安全的未受精蛋）和“quitters”（不安全的受精蛋）。假设仅根据鸡蛋的重量和长度就能区分这三类鸡蛋。多类分类就是为新输入样本分配这三类中的某一类。训练好的多类分类器接收到新样本后，会确定样本所属区域，进而分配对应类别。

2.3 增加特征维度

我们还可以为每个样本增加更多特征，如鸡蛋颜色、平均周长、产蛋时间等，这样每个鸡蛋就有了五个维度的数据。虽然难以直观想象五维空间，但可以类比二维空间。在二维空间中，数据点会聚集，我们能绘制边界线（或曲线）区分不同类别；在高维空间中，大部分情况也是如此，我们可以将五维空间划分为多个小的五维区域，每个区域对应一个类别。不过，随着维度增加，算法的运行时间和内存消耗通常也会增加。