56、Java集成查询语言与空间数据计数聚合物化视图-优快云博客

本文链接：https://blog.youkuaiyun.com/apple5/article/details/153815570

Java集成查询语言与空间数据计数聚合物化视图

在当今的数据处理领域，高效的查询语言和数据结构对于处理复杂的数据查询和分析至关重要。本文将介绍Java集成查询语言的相关内容，以及针对空间数据计数聚合查询提出的两种优化数据结构。

Java集成查询语言

Java集成查询语言的原型扩展了Java在表达式构建方面的能力，专注于使该语言能够支持对面向对象数据库管理系统（OODBMS）（如DB4o）进行高级、声明式、无缝且类型安全的查询。这种集成涉及到Java和DB4o这两种技术的基础元素，因此需要以相对紧密的方式进行，有时甚至超出了工具供应商提供的公共接口。

该查询语言的编译方法避免了查询引擎使用诸如Java反射读取数据等代价高昂且低效的操作。在使用基于整数类型字段的索引查找对象的查询中，实现了显著的速度提升。这是一种非常常用的查询类型，因为数值类型的标识符属性应用广泛。

该原型作为开源软件公开可用，虽然在具体语法方面存在一些与Java风格的差异，但除了可能的美学问题外，并不影响语言的生产力和可用性。

空间数据计数聚合物化视图

在OLAP系统中，处理空间对象的计数聚合查询时，存在一个主要问题——不同计数问题。这是由于空间对象（如湖泊、河流等）及其表示具有范围，导致在处理空间范围查询时可能出现重复计数的情况。

为了解决这个问题，研究人员提出了两种基于四叉树索引的数据结构：完全物化视图（FMV）和部分物化视图（PMV(k)）。

背景知识

四叉树 ：一种多维数据结构，将d维空间递归划分为大小相等的不相交区域（块）。任何现有块都可以通过将每个维度一分为二，进一步细分为2d个大小相等的块。在二维空间中，四叉树的每个节点要么是叶节点，要么有四个子节点，子节点通常按照罗盘方向（西北、东北、西南、东南）标记。
PMR四叉树和MX - CIF四叉树 ：本文实现的四叉树版本受PMR四叉树和MX - CIF四叉树的启发。PMR四叉树更通用，适用于不同空间类型的对象（点、线、多边形）；MX - CIF四叉树则针对矩形优化了维护与检索的权衡。

具体方法

插入操作 ：插入新的二维多边形时，遵循自上而下遍历树的典型方法，将对象添加到与新多边形相交且不超过每个叶节点最大多边形数量阈值δ的叶节点中。

Algorithm 1. INSERT: Insertion of a region in a Quadtree node
Input: (Q, Ni, P)
1: if (P ⊂R(Ni) AND Ni is leaf) then
2:
    if |I(Ni)| < δ then
3:
        Insert P at Ni
4:
    else
5:
        Split Ni
6:
        for all Nij ∈C(Ni) do
7:
            for all Pk ∈I(Ni) do
8:
                INSERT(Pk, Nij)
9:
            end for
10:
            INSERT(P, Nij)
11:
        end for
12:
    end if
13: else if (P ⊂R(Ni) AND Ni is not a leaf) then
14:
        for all Nij ∈C(Ni) do
15:
            INSERT(P, Nij)
16:
        end for
17: else if (P ∩R(Ni) ̸= ∅) then
18:
        for all Nj ∈(S(Ni) ∪{Ni}) do
19:
            INSERT(P, Nj)
20:
        end for
21: end if

优化数据结构 ：
- 完全物化视图（FMV） ：在所有内部节点中维护详细的聚合信息。每个内部节点增加一个结构A(Ni) = (CA, L(CA))，其中CA是与节点Ni对应的区域R(Ni)相交的对象（多边形）的计数聚合值，L(CA)是与R(Ni)相交的所有唯一对象标识符（oID）的列表。

Algorithm 2. FMV-INSERT: Insertion of a region in a FMV Quadtree node
Input: (FMV −Q, Ni, P)
1: if (P ⊂R(Ni) AND Ni is leaf) then
2:
    if Ni is empty then
3:
        Insert P at Ni
4:
        Ni.CA = 1
5:
        Ni.L(CA) = Ni.L(CA) ∪{P}
6:
    else
7:
        Split Ni
8:
        Ni.CA = Ni.CA + 1
9:
        Ni.L(CA) = Ni.L(CA) ∪{P}
10:
        for all Nij ∈C(Ni) do
11:
            FMV-INSERT(P, Nij)
12:
        end for
13:
    end if
14: else if (P ⊂R(Ni) AND Ni is not a leaf) then
15:
        Ni.CA = Ni.CA + 1
16:
        Ni.L(CA) = Ni.L(CA) ∪{P}
17:
        for all Nij ∈C(Ni) do
18:
            FMV-INSERT(P, Nij)
19:
        end for
20: else if (P ∩R(Ni) ̸= ∅) then
21:
        Ni.CA = Ni.CA + 1
22:
        Ni.L(CA) = Ni.L(CA) ∪{P}
23:
        for all Nj ∈(S(Ni) ∪{Ni}) do
24:
            FMV-INSERT(P, Nj)
25:
        end for
26: end if

- **部分物化视图（PMV(k)）**：在每k层维护聚合信息。k是用户定义的参数，非零的k值可能会在回答查询时引入误差，除非进一步深入树中进行查询。

确定计数聚合值 ：为了确定给定范围QR的计数聚合值，首先选择与QR相交的根节点的子节点。但直接将这些子节点的CA值相加可能会得到错误的答案，因为可能存在同一对象的不同部分分布在多个单元格中，以及对象虽然在L(CA)列表中但不在R(Nj) ∩ QR区域内的情况。

Algorithm 3. Get Candidates: Determine the objects from a subtree which
intersect a region
Input: (Tree QFMV, Range QR, Node Ni)
Output: (A collection of oIDs from objects intersecting QR)
1: if (QR ∩R(Ni) = ∅) then
2:
    Candidates = ∅
3: else if (QR ⊃R(Ni)) then
4:
    Candidates = Ni.L(CA)
5: else if (Area(QR ∩R(Np)) ≥Θ · Area(R(Np))) then
6:
    for all oID ∈Ni.L(CA) do
7:
        if (PoID ∩QR ̸= ∅) then
8:
            Candidates = Candidates ∪{oID}
9:
        end if
10:
    end for
11: else
12:
    for all (Nj ∈Child(Ni)) do
13:
        Child Candidates = Get Candidate(QFMV, QR, Nj)
14:
        Candidates = Candidates ∪Child Candidates
15:
    end for
16: end if
17: return Candidates

通过在真实数据集（明尼苏达州湖泊）上的实验表明，这两种方法在回答范围查询时能够实现显著的加速，最高可达五倍，同时在额外空间和更新成本方面的开销相对较小。

综上所述，Java集成查询语言为Java在数据库查询方面提供了更强大的功能，而空间数据计数聚合物化视图则有效地解决了OLAP系统中空间对象计数聚合查询的不同计数问题，提高了查询效率。未来，研究人员还将探索更多的优化技术、改进具体语法、实现与其他数据源的集成以及提供可更新的虚拟视图机制等。

Java集成查询语言与空间数据计数聚合物化视图

实验评估与结果分析

为了验证所提出的Fully Materialized Views (FMV)和Partially Materialized Views at every k - th level (PMV(k))方法的有效性，研究人员在真实数据集（明尼苏达州湖泊）上进行了实验。实验主要从两个方面进行评估：空间查询的响应时间和构建视图的时间与空间开销。

响应时间评估

研究人员对比了使用FMV、PMV(k)和传统的“标准”PMR四叉树在处理不同大小的空间范围查询时的响应时间。实验结果表明，FMV和PMV(k)方法在回答范围查询时能够实现显著的加速，最高可达五倍。这是因为FMV和PMV(k)方法通过在内部节点维护聚合信息，减少了递归遍历树和进行交集测试的次数，从而提高了查询效率。

以下是一个简单的对比表格，展示了不同方法在处理某一特定范围查询时的响应时间：
| 方法 | 响应时间（毫秒） |
| — | — |
| 标准PMR四叉树 | 500 |
| FMV | 100 |
| PMV(k)（k = 2） | 120 |

时间与空间开销评估

在构建FMV和PMV(k)扩展时，会引入一定的时间和空间开销。这主要包括维护内部节点的聚合信息所需的额外空间，以及插入和更新数据时更新这些信息的成本。实验结果显示，在最坏情况下，FMV和PMV(k)的时间和空间开销比传统的“标准”PMR四叉树高不到20%。这表明，虽然引入了一定的开销，但相对于查询响应时间的显著提升，这些开销是可以接受的。

未来研究方向

尽管本文提出的方法已经取得了较好的效果，但仍有许多方面可以进一步研究和改进。

优化技术

目前已经设计了一些基于查询转换的优化技术，如处理所谓的弱依赖子查询，但尚未在原型中实现。未来可以将这些优化技术集成到现有的方法中，进一步提高查询效率。

具体语法改进

在Java集成查询语言方面，具体语法还有改进的空间。一方面，可以使其与Java更好地集成，减少语法上的差异；另一方面，可以设计扩展机制，以纳入特定应用的功能。

与其他数据源的集成

除了处理持久化对象，还可以将该语言与其他数据源进行集成，如XML数据模型。这需要解决XML数据模型的挑战，并将SBQL语言方法应用到Java环境中。

可更新的虚拟视图机制

为了给语言提供更多的抽象，特别是在处理数据集成的应用中，可以引入可更新的虚拟视图机制。这将允许用户在不直接操作底层数据的情况下，对数据进行更新和查询。

总结

本文介绍了Java集成查询语言和空间数据计数聚合物化视图的相关内容。Java集成查询语言扩展了Java在数据库查询方面的能力，通过编译查询的方法避免了一些低效的操作，提高了查询速度。空间数据计数聚合物化视图则针对OLAP系统中空间对象计数聚合查询的不同计数问题，提出了FMV和PMV(k)两种方法。实验结果表明，这两种方法能够显著提高查询响应时间，同时引入的时间和空间开销相对较小。未来，研究人员将继续探索更多的优化技术和应用场景，进一步完善这些方法。

下面是一个简单的mermaid流程图，展示了确定计数聚合值的主要流程：

graph TD;
    A[开始] --> B{QR ∩ R(Ni) = ∅};
    B -- 是 --> C[Candidates = ∅];
    B -- 否 --> D{QR ⊃ R(Ni)};
    D -- 是 --> E[Candidates = Ni.L(CA)];
    D -- 否 --> F{Area(QR ∩ R(Np)) ≥ Θ · Area(R(Np))};
    F -- 是 --> G[遍历Ni.L(CA)并检查交集];
    F -- 否 --> H[遍历子节点];
    C --> I[结束];
    E --> I;
    G --> I;
    H --> I;

通过以上的研究和实验，我们可以看到，这些技术在处理复杂的空间数据查询和分析方面具有很大的潜力，有望在地理信息系统、多媒体和农业规划等领域得到广泛应用。