19、数据分类、训练与测试:高维空间的挑战与应对

数据分类、训练与测试:高维空间的挑战与应对

1. 数据分类与密度

在数据分类中,维度数量和数据点数量对分类器的性能有着重要影响。一般来说,如果维度数较低且数据点较多,那么分类器很可能有足够的密度来找到一个能很好地推广到新数据的表面。不过,“低维度”和“大量数据点”的具体数值取决于所使用的算法和数据的实际情况,并没有固定的规则来预测这些值。通常的做法是先进行猜测,观察性能表现,然后再进行调整。总体而言,在训练数据方面,更多的数据往往意味着更好的效果,所以应在符合道德的前提下尽可能收集更多数据。

2. 高维空间的奇特现象

现实世界中的数据样本通常具有多个特征,因此我们常常在高维空间中进行工作。然而,高维空间具有一些与我们熟悉的低维空间截然不同的特性,这些特性可以用“奇特”来形容。以下通过两个例子来说明高维空间的奇特之处。

2.1 立方体中球体的体积

在不同维度下,将球体放入立方体中,观察球体占据立方体的比例:
- 一维情况 :“立方体”是一条线段,“球体”也是一条线段,且完全覆盖该线段,球体与“立方体”的内容比例为 1:1。
- 二维情况 :“立方体”是一个正方形,“球体”是一个刚好接触正方形四条边中心的圆,圆的面积与正方形面积之比约为 0.8。
- 三维情况 :立方体是一个普通的三维立方体,球体内切于立方体,刚好接触六个面的中心,球体体积与立方体体积之比约为 0.5。

随着维度的增加,球体相对于其所在立方体所占据的空间比例逐渐下降。当达到 10 维时,能放入立方体的最大球体

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值