机器学习中的数据分类、训练与测试
1. 数据密度与分类器
在数据分类中,维度数量和数据点的多少对分类器的性能有重要影响。一般来说,如果维度较低且数据点较多,分类器就更有可能找到一个能很好泛化到新数据的分类面。不过,“低维度”和“大量数据点”的具体数值取决于所使用的算法和数据本身的特征,并没有固定的规则来预测这些值,通常需要先进行猜测,观察性能表现后再做调整。总体而言,训练数据越多越好,应在符合道德规范的前提下尽可能收集更多数据。
2. 高维空间的奇特现象
现实世界的数据样本通常具有多个特征,因此我们常常在高维空间中进行数据分析。然而,高维空间的特性与我们熟悉的低维空间有很大不同,不能仅凭直觉来设计学习系统。下面通过两个例子来说明高维空间的奇特之处。
2.1 立方体中球体的体积
将球体放入立方体中,测量球体占据立方体的比例。在一维空间中,“立方体”是线段,“球体”也是线段,二者比例为 1:1;二维空间中,“立方体”是正方形,“球体”是圆,圆面积与正方形面积之比约为 0.8;三维空间中,立方体是常见的三维立方体,球体积与立方体体积之比约为 0.5。随着维度的增加,球体占据立方体的比例逐渐下降,到 10 维时,最大的超球体几乎不占据超立方体的体积。这与我们在三维世界的经验不符,但通过数学计算确实如此,体现了高维空间的奇特。
| 维度 | 立方体类型 | 球体类型 | 球体与立方体体积比 |
|---|---|---|---|
| 1 维 |
机器学习:数据分类、训练与测试策略
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



