8、大规模高速数据流处理与概念漂移下的块集成比较

最新推荐文章于 2025-09-15 09:59:00 发布

sun99

最新推荐文章于 2025-09-15 09:59:00 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：数据库与信息系统的未来文章标签：数据流处理概念漂移块集成学习

本文链接：https://blog.youkuaiyun.com/sun99/article/details/151007238

数据库与信息系统的未来专栏收录该内容

49 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

大规模高速数据流处理与概念漂移下的块集成比较

1. 非线性格式塔树压缩

在数据流处理中，格式塔树（QTW）的压缩是一个重要的环节。设 $NQTW_{j - 1}$ 和 $NQTW_j$ 分别表示算法第 $(j - 1)$ 次和第 $j$ 次迭代时 QTW 的节点数，且 $NQTW_{j - 1} < NQTW_j$。可以高效地从 $QWLj_{j - 1}$ 得到 $QWLj_j$，公式如下：
[QWLj_j = QWLj_{j - 1} - Q(LQTW_j)]
其中：
[Q(LQTW_j) = \sum_{k = 0}^{|LQTW_j| - 1} Q(n_{LQTW_j,k})]
这里 $Q(n_{LQTW_j,k})$ 表示与属于 $LQTW_j$ 的（内部）QTW 节点 $n_{LQTW_j,k}$ 相关联的合成查询集。由此可知，生成合成查询工作负载 $QWL$ 的动态复杂度与压缩算法的迭代次数呈线性关系。

压缩算法每次迭代访问要修剪的 QTW 节点集 $LQTW$ 会产生访问成本。为降低这种复杂度的影响，引入参数 $\rho$，使得 $|LQTW| = \rho$，它决定了每次迭代要修剪的 QTW 节点数。显然，每次迭代修剪一个单节点的替代数据访问方法的访问成本，会比每次迭代修剪 $\rho$ 个节点的访问成本高得多。由于 $\rho$ 是可定制的输入参数，可以根据具体的数据流应用场景进行经验性调整，以在 QTW 的非线性压缩过程中引入较低的时空开销。