大数据中的回归与分类
在当今时代,大数据已经成为了一种常态,曾经教科书里仅有 25 个观测值的例子早已一去不复返。大公司的自动数据收集使得数据集规模达到了 TB 级别甚至更大。这既催生了一些高尚的应用,如流行病和犯罪事件的地理预测,也引发了令人不安的隐私侵犯问题。无论好坏,大数据已然成为我们生活的一部分。
大数据的出现让我们重新关注预测方法,但同时也带来了新的问题:
- 计算问题 :通常,这些方法的运行时间会非常长,有时甚至需要数小时、数天。而且,数据可能无法全部装入可用内存,导致无法运行。
- 统计问题 :在许多应用中,预测变量的数量 $p$ 远远超过观测值的数量 $n$,例如在基因组学问题中。由于在线性模型中需要 $p < n$ 以避免不确定性,需要 $p << n$ 以避免过拟合,这无疑是一个巨大的挑战。
解决大数据量(Big - n)问题
当 $n$ 很大而 $p$ 适中时,可以使用一种名为“软件炼金术(Software Alchemy)”的方法来解决计算问题。
软件炼金术
以 lm() 函数为例,软件炼金术的步骤如下:
1. 将数据矩阵的行分成若干块,假设为 $r$ 块。
2. 对每一块数据应用统计程序,如 lm() 。
3. 对 $r$ 个 $\hat{\beta}$ 向量求平均值,得到整体的 $\hat{\beta}$。
由于每一块数据都比完整数据集小得多,因此每一块的运行时间也会相应减少。而且,由于这
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



