高效评估与数据流聚类算法解析
1. XML 结构查询中的高效评估策略
在 XML 分支模式评估中,关键挑战在于如何高效地将查询节点的结构关系与 XML 数据库进行匹配。一般来说,分支查询中的结构关系可分为两类:路径表达式和最近公共祖先小枝(NCA - twiglet)。路径表达式施加线性结构约束,而 NCA - twiglet 指定树状结构关系。
为了高效处理 NCA - twiglet,有一种基于 SUCXENT++ 的方案。通过利用 SUCXENT++ 的编码方案,可以减少无用的结构比较,从而实现对 NCA - twiglet 的高效评估。与 GLOBAL - ORDER 这种代表性的无树感知方法相比,该方案在所有基准查询中都表现更优。而且,与有树感知的方法不同,此方案无需侵入数据库内核来提高查询性能,可轻松构建在任何现成的关系型数据库管理系统(RDBMS)之上。
2. 数据流聚类的挑战与需求
数据流聚类在科学和商业领域都有重要应用,它有助于总结数据特征。然而,由于数据流只能进行单次扫描,与传统聚类方法的多次扫描不同,数据流聚类的结果只是对数据特征的近似。传统上,数据流聚类常使用基于窗口的模型,突出最近数据点在聚类中的重要性。
但目前的聚类方法存在一些问题:
- 完全聚类问题 :常见的金字塔时间窗口、滑动窗口和阻尼窗口模型会连续折扣历史数据。当数据流速度突然变化或两次聚类间隔较长时,部分历史数据可能在用于构建模型之前就被折扣,导致一些小的离群簇可能无法被检测到,造成聚类不完整。
- 在线组件性能不可预测 :基于微簇的方法中,流处理组件的复
超级会员免费看
订阅专栏 解锁全文
901

被折叠的 条评论
为什么被折叠?



