34、大数据中的回归与分类:挑战、方法与实践

大数据中的回归与分类:挑战、方法与实践

在大数据时代,回归和分类问题面临着诸多挑战,尤其是当预测变量数量(p)远大于数据点数量(n)时。本文将深入探讨这些挑战,并介绍一些应对方法和实际案例。

1. 维度灾难

维度灾难(Curse of Dimensionality,COD)由Richard Bellman在1953年提出。简单来说,随着问题维度的增加,估计统计模型的难度呈指数级增长。在回归或分类问题中,如果预测变量p非常大,可能需要大量的数据点n才能建立有效的模型。这在当今大数据时代尤为棘手,因为p可能达到数百、数千甚至更多。

高维空间中数据的稀疏性是维度灾难的一个常见表现。以k - NN算法为例,当p值较高时,相邻观测值往往与给定观测值距离较远,特别是在数据空间的边缘。这使得这些相邻观测值难以代表给定观测值,也解释了为什么在使用非参数回归方法时,p需要缓慢增长。虽然线性平滑可能会有所改善,但总体效果类似。

2. 实际案例分析
2.1 货币数据案例

研究人员常通过向真实数据集添加噪声变量,来检验某种方法是否能正确忽略这些变量。以货币数据集为例,该数据集有n = 761个数据点,我们添加了1500个噪声变量。

首先尝试LASSO算法:

curr <- read.table('EXC.ASC', header = TRUE)
u <- matrix(rnorm(761 * 1500), nrow = 761)
curru <- cbind(curr, u)
library(lars)
larsout <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值