9、预测模型构建:数据、算法与性能评估

预测模型构建:数据、算法与性能评估

1. 驱动预测算法性能的因素

准确预测复杂问题通常需要大量数据,但数据规模并非唯一关键因素,数据形状同样重要。在预测建模中,可将预测数据视为一个矩阵,矩阵的行数和列数分别代表不同含义。增加一列意味着添加一个新属性,而增加一行则表示获取现有属性的一个额外历史示例。

为理解新增行和新增列的不同影响,我们考虑一个线性模型,假设其形式如下:
[y_{i} \sim \beta_{1}x_{i1} + \beta_{2}x_{i2} + \cdots + \beta_{m}x_{im}]
其中,(x_{i}) 是属性行,(\beta) 是待确定的系数列向量。给属性矩阵添加一列,就会增加一个需要确定的 (\beta) 系数,这个新增系数也被称为自由度。增加自由度会使模型更复杂,而更复杂的模型通常需要更多数据。因此,我们常考虑行与列的比例,即纵横比。

生物数据集和自然语言处理数据集是规模较大但列数众多的例子。在生物学中,基因组数据集可能包含 10,000 到 50,000 个属性,即使有上万次实验(数据行),也可能不足以训练复杂的集成模型,线性模型可能会有相当甚至更好的表现。而且,基因组数据成本高昂,一次实验可能花费超过 5000 美元,整个数据集成本可能超过 5000 万美元。

文本数据的收集和存储相对便宜,但列数可能比基因组数据更多。在某些自然语言处理问题中,属性是单词,行是文档,属性矩阵中的元素是单词在文档中出现的次数。文档集合的词汇量(列数)取决于预处理方式,可能从几千到几万不等。当考虑 n - 元组(相邻的两个、三个或四个单词)时,属性空间可能会增长到超过一百万个属性。同样,线性模型可能比复杂的集成模型表现更好。 <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值