18、机器学习中的数据分类、训练与测试

机器学习:数据分类、训练与测试策略

机器学习中的数据分类、训练与测试

1. 数据密度与分类器

在数据分类中,维度数量和数据点的多少对分类器的性能有重要影响。一般来说,如果维度较低且数据点较多,分类器就更有可能找到一个能很好泛化到新数据的分类面。不过,“低维度”和“大量数据点”的具体数值取决于所使用的算法和数据本身的特征,并没有固定的规则来预测这些值,通常需要先进行猜测,观察性能表现后再做调整。总体而言,训练数据越多越好,应在符合道德规范的前提下尽可能收集更多数据。

2. 高维空间的奇特现象

现实世界的数据样本通常具有多个特征,因此我们常常在高维空间中进行数据分析。然而,高维空间的特性与我们熟悉的低维空间有很大不同,不能仅凭直觉来设计学习系统。下面通过两个例子来说明高维空间的奇特之处。

2.1 立方体中球体的体积

将球体放入立方体中,测量球体占据立方体的比例。在一维空间中,“立方体”是线段,“球体”也是线段,二者比例为 1:1;二维空间中,“立方体”是正方形,“球体”是圆,圆面积与正方形面积之比约为 0.8;三维空间中,立方体是常见的三维立方体,球体积与立方体体积之比约为 0.5。随着维度的增加,球体占据立方体的比例逐渐下降,到 10 维时,最大的超球体几乎不占据超立方体的体积。这与我们在三维世界的经验不符,但通过数学计算确实如此,体现了高维空间的奇特。

维度 立方体类型 球体类型 球体与立方体体积比
1 维
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值