大规模高速数据流处理与概念漂移下的块集成比较
1. 非线性格式塔树压缩
在数据流处理中,格式塔树(QTW)的压缩是一个重要的环节。设 $NQTW_{j - 1}$ 和 $NQTW_j$ 分别表示算法第 $(j - 1)$ 次和第 $j$ 次迭代时 QTW 的节点数,且 $NQTW_{j - 1} < NQTW_j$。可以高效地从 $QWLj_{j - 1}$ 得到 $QWLj_j$,公式如下:
[QWLj_j = QWLj_{j - 1} - Q(LQTW_j)]
其中:
[Q(LQTW_j) = \sum_{k = 0}^{|LQTW_j| - 1} Q(n_{LQTW_j,k})]
这里 $Q(n_{LQTW_j,k})$ 表示与属于 $LQTW_j$ 的(内部)QTW 节点 $n_{LQTW_j,k}$ 相关联的合成查询集。由此可知,生成合成查询工作负载 $QWL$ 的动态复杂度与压缩算法的迭代次数呈线性关系。
压缩算法每次迭代访问要修剪的 QTW 节点集 $LQTW$ 会产生访问成本。为降低这种复杂度的影响,引入参数 $\rho$,使得 $|LQTW| = \rho$,它决定了每次迭代要修剪的 QTW 节点数。显然,每次迭代修剪一个单节点的替代数据访问方法的访问成本,会比每次迭代修剪 $\rho$ 个节点的访问成本高得多。由于 $\rho$ 是可定制的输入参数,可以根据具体的数据流应用场景进行经验性调整,以在 QTW 的非线性压缩过程中引入较低的时空开销。
2. 多分辨率数据流(MRDS)的非线性压缩
MRDS 的非线性压缩以 QTW 的非线性压缩为基础操作。事件处理层通过 $\langle E_k,
超级会员免费看
订阅专栏 解锁全文
1328

被折叠的 条评论
为什么被折叠?



