大数据中的回归与分类:挑战、方法与实践
在大数据时代,回归和分类问题面临着诸多挑战,尤其是当预测变量数量(p)远大于数据点数量(n)时。本文将深入探讨这些挑战,并介绍一些应对方法和实际案例。
1. 维度灾难
维度灾难(Curse of Dimensionality,COD)由Richard Bellman在1953年提出。简单来说,随着问题维度的增加,估计统计模型的难度呈指数级增长。在回归或分类问题中,如果预测变量p非常大,可能需要大量的数据点n才能建立有效的模型。这在当今大数据时代尤为棘手,因为p可能达到数百、数千甚至更多。
高维空间中数据的稀疏性是维度灾难的一个常见表现。以k - NN算法为例,当p值较高时,相邻观测值往往与给定观测值距离较远,特别是在数据空间的边缘。这使得这些相邻观测值难以代表给定观测值,也解释了为什么在使用非参数回归方法时,p需要缓慢增长。虽然线性平滑可能会有所改善,但总体效果类似。
2. 实际案例分析
2.1 货币数据案例
研究人员常通过向真实数据集添加噪声变量,来检验某种方法是否能正确忽略这些变量。以货币数据集为例,该数据集有n = 761个数据点,我们添加了1500个噪声变量。
首先尝试LASSO算法:
curr <- read.table('EXC.ASC', header = TRUE)
u <- matrix(rnorm(761 * 1500), nrow = 761)
curru <- cbind(curr, u)
library(lars)
larsout <
超级会员免费看
订阅专栏 解锁全文
1070

被折叠的 条评论
为什么被折叠?



