9、预测模型构建：数据、算法与性能评估-优快云博客

本文链接：https://blog.youkuaiyun.com/transformer2023/article/details/152467406

预测模型构建：数据、算法与性能评估

1. 驱动预测算法性能的因素

准确预测复杂问题通常需要大量数据，但数据规模并非唯一关键因素，数据形状同样重要。在预测建模中，可将预测数据视为一个矩阵，矩阵的行数和列数分别代表不同含义。增加一列意味着添加一个新属性，而增加一行则表示获取现有属性的一个额外历史示例。

为理解新增行和新增列的不同影响，我们考虑一个线性模型，假设其形式如下：
[y_{i} \sim \beta_{1}x_{i1} + \beta_{2}x_{i2} + \cdots + \beta_{m}x_{im}]
其中，(x_{i}) 是属性行，(\beta) 是待确定的系数列向量。给属性矩阵添加一列，就会增加一个需要确定的 (\beta) 系数，这个新增系数也被称为自由度。增加自由度会使模型更复杂，而更复杂的模型通常需要更多数据。因此，我们常考虑行与列的比例，即纵横比。

生物数据集和自然语言处理数据集是规模较大但列数众多的例子。在生物学中，基因组数据集可能包含 10,000 到 50,000 个属性，即使有上万次实验（数据行），也可能不足以训练复杂的集成模型，线性模型可能会有相当甚至更好的表现。而且，基因组数据成本高昂，一次实验可能花费超过 5000 美元，整个数据集成本可能超过 5000 万美元。

文本数据的收集和存储相对便宜，但列数可能比基因组数据更多。在某些自然语言处理问题中，属性是单词，行是文档，属性矩阵中的元素是单词在文档中出现的次数。文档集合的词汇量（列数）取决于预处理方式，可能从几千到几万不等。当考虑 n - 元组（相邻的两个、三个或四个单词）时，属性空间可能会增长到超过一百万个属性。同样，线性模型可能比复杂的集成模型表现更好。 <