10、预测模型构建全解析

预测模型构建全解析

1. 驱动预测算法性能的因素

准确预测复杂问题通常需要大量数据,但数据大小并非唯一关键因素,数据形状同样重要。可以将预测数据视为一个矩阵,矩阵的行数和列数分别代表不同含义。添加一列意味着增加一个新属性,而添加一行则是获取现有属性的一个额外历史示例。

为了理解新增行和新增列的影响差异,我们可以考虑一个线性模型。假设模型形式如下:
[y_{i} \sim \beta_{0} + \beta_{1}x_{i1} + \beta_{2}x_{i2} + \cdots + \beta_{m}x_{im}]
这里,(x_{i}) 是属性行,(\beta) 是待确定的系数列向量。给属性矩阵添加一列,就需要确定一个新的系数,这个新增系数也被称为自由度。增加自由度会使模型更复杂,而更复杂的模型通常需要更多数据。因此,我们常使用行与列的比率(即纵横比)来考量。

以下是一些不同类型数据集的情况:
| 数据集类型 | 特点 | 合适模型 |
| ---- | ---- | ---- |
| 生物数据集(如基因组数据集) | 列数众多,可包含 10,000 到 50,000 个属性,数据成本高,一个实验(一行数据)可能花费超过 5000 美元 | 线性模型可能表现更佳 |
| 自然语言处理数据集 | 文本收集和存储成本相对较低,但列数可能比基因组数据更多。当考虑 n - 元组时,属性空间可增长到超过一百万个属性 | 线性模型可能表现更佳 |

2. 选择算法:线性还是非线性?

线性和非线性预测模型在性能上各有优劣:
- 线性模型 :当数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值