数据查询与分析技术:不确定流、概率链接及典型性查询
在数据处理和分析领域,针对不同类型的数据和查询需求,有多种技术和方法被提出和应用。下面将详细介绍不确定流、概率链接查询、概率路径查询以及不确定数据的典型性查询等方面的相关内容。
不确定流相关研究
在数据处理中,不确定流的处理是一个重要的方向。对于包含 N 个数据元素的集合,φ - 分位数(0 < φ ≤ 1)是指在数据集指定的单调顺序下,排名为 ⌈φN⌉ 的元素。主要的处理范式是持续高效地维护一个小的数据结构(草图/摘要),以支持在线查询。已有研究表明,可以维护一个空间高效的 φ - 近似分位数草图,对于分位数 φ,总能找到一个排名为 r′ 的元素,且具有统一的精度保证 ∥r′ - ⌈φN⌉∥ ≤ εN。
由于许多实际数据集常呈现出头部(或尾部,取决于给定的单调顺序)的偏态,最近开发了相对排名误差(或有偏)分位数计算技术,这些技术在头部提供了更好的排名误差保证。
同时,Top - k 查询已扩展到数据流中。Mouratidis 等人研究了在滑动窗口上连续监控 Top - k 查询的问题,近期的研究还改进了算法的性能。
然而,现有的关于数据流连续排名或分位数查询的研究都未考虑不确定数据。由于可能世界语义的复杂性,这些方法不能直接扩展到不确定数据的概率阈值 Top - k 查询。
在连续传感器流监控方面,其重点是在传感器网络中维护确定性查询的答案,同时尽可能降低能耗。Deshpande 等人基于传感器网络中存储的和当前的数据构建了一个相关感知的概率模型,并使用该模型回答 SQL 查询,虽然只提供具有一定置信区间的近似答案,但显著降低了数据维护和查询回答的成本。Liu
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



