高维数据的重要属性

本文探讨了高维数据集的特点,包括数据集随维数增长而指数级扩大、高维度空间中数据点间的距离变化趋势及数据稀疏性增强等问题,并通过电信客户使用功能的例子进行了说明。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

高维数据的重要属性:

  • 数据集的大小随着维数呈指数级增长。
  • 在高维样本空间中,需要一个更大的数据才能把小部分的数据放入。
  • 在高维度空间中,几乎每一个点都比其他样本点更接近于某一边界。
  • 几乎每一个点都是异常点。

随着维数的增加,数据密度会越来越小,稀疏。如果样本没增加,只是增加维数,就会导致最终任意两个样本点的距离一样大。

理解:假如一个电信客户有短信功能,另外一个客户有通话功能,还有一个客户有上网功能。那么,如果把他们的记录都放在一个表,则会导致

第一个客户的通话和上网属性为0,第二个客户的短信和上网属性为0,第三个客户的短信和通话为0,这样计算这三个客户的距离就会变得很大。

 

做个小推广:程序员经常久坐,颈椎毛病比较多,特别推荐ventry颈椎保健枕

转载于:https://www.cnblogs.com/longzhongren/p/4281895.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值