33、大数据中的回归与分类

大数据中的回归与分类

在当今时代,大数据已经成为了一种常态,曾经教科书里仅有 25 个观测值的例子早已一去不复返。大公司的自动数据收集使得数据集规模达到了 TB 级别甚至更大。这既催生了一些高尚的应用,如流行病和犯罪事件的地理预测,也引发了令人不安的隐私侵犯问题。无论好坏,大数据已然成为我们生活的一部分。

大数据的出现让我们重新关注预测方法,但同时也带来了新的问题:
- 计算问题 :通常,这些方法的运行时间会非常长,有时甚至需要数小时、数天。而且,数据可能无法全部装入可用内存,导致无法运行。
- 统计问题 :在许多应用中,预测变量的数量 $p$ 远远超过观测值的数量 $n$,例如在基因组学问题中。由于在线性模型中需要 $p < n$ 以避免不确定性,需要 $p << n$ 以避免过拟合,这无疑是一个巨大的挑战。

解决大数据量(Big - n)问题

当 $n$ 很大而 $p$ 适中时,可以使用一种名为“软件炼金术(Software Alchemy)”的方法来解决计算问题。

软件炼金术

lm() 函数为例,软件炼金术的步骤如下:
1. 将数据矩阵的行分成若干块,假设为 $r$ 块。
2. 对每一块数据应用统计程序,如 lm()
3. 对 $r$ 个 $\hat{\beta}$ 向量求平均值,得到整体的 $\hat{\beta}$。

由于每一块数据都比完整数据集小得多,因此每一块的运行时间也会相应减少。而且,由于这

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值