分类、训练与测试:高维数据的挑战与应对
1. 数据分类与密度
在数据分类中,维度数量和数据点的多少对分类器的性能有着重要影响。一般来说,如果维度数较低且数据点较多,那么分类器很可能有足够的密度来找到一个能很好地推广到新数据的表面。不过,“低维度”和“大量数据点”的具体数值取决于所使用的算法和数据的实际情况,并没有一个固定的规则来预测这些值。通常的做法是先进行猜测,观察分类器的性能,然后再进行调整。总体而言,在训练数据方面,更多的数据往往意味着更好的效果,所以应在符合道德规范的前提下尽可能收集更多的数据。
2. 高维空间的奇异特性
现实世界中的数据样本通常具有多个特征,因此我们常常在高维空间中进行工作。然而,高维空间具有一些与我们熟悉的低维空间截然不同的特性,这些特性被称为“高维奇异特性”。下面通过两个例子来具体说明。
2.1 立方体中球体的体积
考虑将一个球体放入立方体中,然后测量球体占据立方体的比例。在一维空间中,“立方体”是一条线段,“球体”也是一条线段,且完全覆盖了“立方体”,此时球体与“立方体”的内容比例为 1:1。在二维空间中,“立方体”是一个正方形,“球体”是一个刚好接触正方形四条边中点的圆,圆的面积与正方形面积的比值约为 0.8。在三维空间中,立方体是一个普通的三维立方体,球体内切于立方体,刚好接触六个面的中心,球体体积与立方体体积的比值约为 0.5。
随着维度的增加,球体相对于其包围盒所占据的空间比例会逐渐下降。当达到 10 维时,能放入包围盒的最大球体几乎不占据盒子的任何体积。这与我们在三维世界中的经验大相径庭,但通过数学计算可以证明这是真实发生的情况。
超级会员免费看
订阅专栏 解锁全文

33

被折叠的 条评论
为什么被折叠?



