数据表示与哈希特征设计模式解析
1. 数组数据处理
在数据处理中,输入数据有时是数字数组。若数组长度固定,可将其扁平化,把每个位置当作独立特征。但多数情况下,数组长度可变。例如,预测非虚构书籍销量的模型,输入可能是该主题之前所有书籍的销量,像 [2100, 15200, 230000, 1200, 300, 532100] ,不同主题出版书籍数量不同,数组长度也会不同。
处理数字数组的常见方法如下:
- 基于总体统计量表示 :如使用数组长度(即该主题之前书籍的数量)、平均值、中位数、最小值、最大值等。
- 基于经验分布表示 :通过第 10、20 等百分位数来表示。
- 按特定顺序取固定数量元素表示 :若数组按时间或大小排序,可选取最后三个或其他固定数量的元素。对于长度小于三的数组,用缺失值填充至长度为三。
这些方法可将可变长度的数组数据转换为固定长度的特征。我们也可将此问题视为时间序列预测问题,但将之前书籍的销量作为数组输入时,我们假设预测书籍销量的最重要因素是书籍本身的特征(如作者、出版商、评论等),而非销量的时间连续性。
2. 分类输入处理
由于大多数现代大规模机器学习模型(如随机森林、支持向量机、神经网络)处理的是数值,分类输入需转换为数字。简单地枚举可能值并映射到序数尺度效果不佳。例如,预测非虚构书籍销量的模型中,若输入为书籍的语言,不能简单创建如下映射表:
| 分类输入 | 数值特征 |
| ---- | ---- |
| 英
超级会员免费看
订阅专栏 解锁全文
7332

被折叠的 条评论
为什么被折叠?



