预测模型构建:数据、算法与性能评估
1. 驱动预测算法性能的因素
准确预测复杂问题通常需要大量数据,但数据规模并非唯一关键因素,数据形状同样重要。在预测建模中,可将预测数据视为一个矩阵,矩阵的行数和列数分别代表不同含义。增加一列意味着添加一个新属性,而增加一行则表示获取现有属性的一个额外历史示例。
为理解新增行和新增列的不同影响,我们考虑一个线性模型,假设其形式如下:
[y_{i} \sim \beta_{1}x_{i1} + \beta_{2}x_{i2} + \cdots + \beta_{m}x_{im}]
其中,(x_{i}) 是属性行,(\beta) 是待确定的系数列向量。给属性矩阵添加一列,就会增加一个需要确定的 (\beta) 系数,这个新增系数也被称为自由度。增加自由度会使模型更复杂,而更复杂的模型通常需要更多数据。因此,我们常考虑行与列的比例,即纵横比。
生物数据集和自然语言处理数据集是规模较大但列数众多的例子。在生物学中,基因组数据集可能包含 10,000 到 50,000 个属性,即使有上万次实验(数据行),也可能不足以训练复杂的集成模型,线性模型可能会有相当甚至更好的表现。而且,基因组数据成本高昂,一次实验可能花费超过 5000 美元,整个数据集成本可能超过 5000 万美元。
文本数据的收集和存储相对便宜,但列数可能比基因组数据更多。在某些自然语言处理问题中,属性是单词,行是文档,属性矩阵中的元素是单词在文档中出现的次数。文档集合的词汇量(列数)取决于预处理方式,可能从几千到几万不等。当考虑 n - 元组(相邻的两个、三个或四个单词)时,属性空间可能会增长到超过一百万个属性。同样,线性模型可能比复杂的集成模型表现更好。 <
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



