4、数据表示与哈希特征设计模式解析

最新推荐文章于 2025-11-26 05:00:00 发布

d6e7f8

最新推荐文章于 2025-11-26 05:00:00 发布

阅读量44

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习设计模式精解文章标签：数据表示哈希特征独热编码

本文链接：https://blog.youkuaiyun.com/d6e7f8/article/details/151339512

机器学习设计模式精解专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据表示与哈希特征设计模式解析

1. 数组数据处理

在数据处理中，输入数据有时是数字数组。若数组长度固定，可将其扁平化，把每个位置当作独立特征。但多数情况下，数组长度可变。例如，预测非虚构书籍销量的模型，输入可能是该主题之前所有书籍的销量，像 [2100, 15200, 230000, 1200, 300, 532100] ，不同主题出版书籍数量不同，数组长度也会不同。

处理数字数组的常见方法如下：
- 基于总体统计量表示 ：如使用数组长度（即该主题之前书籍的数量）、平均值、中位数、最小值、最大值等。
- 基于经验分布表示 ：通过第 10、20 等百分位数来表示。
- 按特定顺序取固定数量元素表示 ：若数组按时间或大小排序，可选取最后三个或其他固定数量的元素。对于长度小于三的数组，用缺失值填充至长度为三。

这些方法可将可变长度的数组数据转换为固定长度的特征。我们也可将此问题视为时间序列预测问题，但将之前书籍的销量作为数组输入时，我们假设预测书籍销量的最重要因素是书籍本身的特征（如作者、出版商、评论等），而非销量的时间连续性。