数据流:概述与科学应用
1. 直方图
直方图构建技术与小波技术密切相关。在直方图中,数据会沿着某个属性被分箱到多个区间。对于任何给定的查询,可以利用这些箱中的计数来解析查询。
1.1 简单分区方法
简单的直方图表示方法是将数据划分为等深度或等宽度的区间。然而,使用直方图的主要不准确之处在于,桶内数据点的分布信息没有被保留,因此假设其为均匀分布。这会在查询边界进行外推时导致不准确。
1.2 等深度分区
自然的选择是在每个桶中使用相等数量的计数,这样可以最小化不同桶之间的误差变化。但对于数据流,构建等深度直方图的边界事先是未知的。实际上,等深度分区的设计正是分位数估计问题,因为等深度分区定义了数据中的分位数。
1.3 V - 最优直方图
另一种直方图构建方法是最小化桶中不同值的频率方差的方差。这样能确保在查询两端的桶频率外推时,均匀分布假设近似成立,这种直方图被称为V - 最优直方图。
以下是直方图构建方法的对比表格:
| 方法 | 特点 | 缺点 |
| — | — | — |
| 等宽度区间 | 简单划分 | 未考虑数据分布,可能不准确 |
| 等深度区间 | 最小化误差变化 | 边界事先未知 |
| V - 最优直方图 | 近似满足均匀分布假设 | 构建算法相对复杂 |
2. 数据流中的降维和预测
由于数据流具有固有的时间特性,降维和预测问题尤为重要。
2.1 利用相关性预测
当有大量同时存在的数据流时,可以利用不同数据流之间的相关
超级会员免费看
订阅专栏 解锁全文
32万+

被折叠的 条评论
为什么被折叠?



