46、网页数据仓库中的知识发现与未来发展-优快云博客

本文链接：https://blog.youkuaiyun.com/xray4/article/details/154479928

网页数据仓库中的知识发现与未来发展

1. 网页数据仓库中的知识发现

1.1 知识发现的关键要素

在网页数据仓库中进行知识发现时，需要明确几个关键要素：
- 相关网页数据集 ：在知识发现查询中，应指定与任务相关的网页数据集合。由于用户可能对网页仓库中的任何部分数据感兴趣，知识发现系统需能处理特定的网页数据子集。这意味着知识发现过程会先识别子任务以检索相关数据集（如节点），再从中获取有用信息。
- 待发现的知识类型 ：查询中应明确待发现的知识类型。理想情况下，知识发现系统能自主进行有意义的发现，但由于网页仓库中的知识发现方式多样，无引导的自主发现可能产生大量不同类型的知识，其中很多可能对用户无用。因此，提出了用户驱动的知识发现，需同时指定发现过程所基于的相关网页数据和待发现的知识类型。
- 阈值设定 ：用户可交互地指定各种阈值，用于筛选出有趣的知识，过滤掉低于指定阈值、不太有趣的知识。

1.2 知识发现的查询语言

基于上述考虑，设计了一种查询语言，用于在网页仓库中挖掘不同类型的知识。该查询语言包含三个主要参数的规范：
- 相关网页数据集 ：通过提供网页表模式中的节点类型标识符来指定。
- 待发现的知识类型 ：包括可见性（visibility）、发光性（luminosity）或发光路径（luminous path）。
- 待发现知识的阈值 ：根据在网页仓库中待发现的知识类型，可指定一组不同的阈值。

查询语言的简化 BNF 语法如下：

⟨WQL⟩::=
DISCOVER ⟨knowledge type⟩
[FOR ⟨node type identifier(s)⟩]
[BETWEEN ⟨node type identifiers⟩]
FROM ⟨web table name⟩
[WHERE THRESHOLD = ⟨threshold value⟩]

各部分含义如下：
| 部分 | 含义 |
| ---- | ---- |
| DISCOVER ⟨knowledge type⟩ | 指定待发现的知识类型，支持的类型有可见节点（ visibility ）、发光节点（ luminosity ）、发光路径（ luminous path ） |
| FROM ⟨web table name⟩ | 指定从哪个网页表中发现知识 |
| FOR ⟨node type identifier(s)⟩ | 指定在网页表中对哪些节点类型标识符进行指定知识的发现，用于可见性和发光性知识类型 |
| BETWEEN ⟨node type identifiers⟩ | 当知识类型为发光路径时，指定起始和结束节点类型标识符 |
| WHERE THRESHOLD = ⟨threshold value⟩ | 指定待发现知识的阈值，若用户未指定则使用默认值 |

1.3 查询示例

以下是不同类型知识发现的查询示例：
- 发现可见节点 ：

DISCOVER
visibility
FOR
z
FROM
Cancer
WHERE THRESHOLD = 0.8

发现发光路径 ：

DISCOVER
luminous path
BETWEEN
y and z
FROM
Cancer
WHERE THRESHOLD = 0.4

1.4 三种知识类型的作用

使用网页包发现的三种知识类型有以下作用：
- 可见网页 ：由于网页查询结果可能数量巨大，可见网页的概念让用户能逐步查看针对其查询的热门网页文档。用户可根据阈值生成较小的可见网页集合并浏览感兴趣的信息，通过修改阈值可改变可见网页集合，减少浏览网页的认知负担。从查询处理角度看，相关查询可从一个或多个可见网页开始爬取，减少返回结果数量和查询处理成本。
- 发光网页 ：发光网页能告知用户与其他相关网页的连接情况。例如，许多网站在“其他相关站点”锚点下有热门链接，更多此类链接表示网页文档对其他相关参考源的了解程度。此信息可用于执行类似查询，使爬取从这些站点开始。
- 发光路径 ：发光路径能帮助识别所有返回结果中的共同遍历路径，用户只需浏览这些网页一次。

1.5 网页数据仓库的基础模型与操作

为了有效管理网页数据，提出了仓库对象模型（WHOM），并定义了一组网页代数运算符。

1.5.1 仓库对象模型（WHOM）

WHOM 作为网页仓储系统的基本数据模型，主要由两部分组成：
- 网页对象集 ：包括网页元组和网页模式，它们构成网页表。网页元组是满足网页模式的有向图，由节点和链接组成，节点和链接分别是节点类型和链接类型的实例，包含网页文档和超链接的元数据、结构和内容信息。
- 网页运算符集 ：用于操作网页数据。

1.5.2 网页代数运算符

定义了一组网页代数运算符，用于从网页中提取相关数据，生成新的网页表：
| 运算符 | 功能 |
| ---- | ---- |
| 全局网页耦合（global web coupling） | 应用于网页时，提取万维网的一部分。用户指定耦合查询，结果是以网页元组形式存储在网页表中的相关文档集合 |
| 网页并（web union） | 二元运算符，根据特定条件合并两个网页表 |
| 网页连接（web join） | 二元运算符，根据特定条件合并两个网页表 |
| 网页选择（web select） | 从网页表中提取网页元组的子集 |
| 网页投影（web project） | 从网页表的网页元组中移除一些节点 |
| 网页去重（web distinct） | 从网页包中移除重复的网页元组 |

此外，还引入了一组数据可视化运算符，如网页嵌套（web nest）、网页解嵌套（web unnest）、网页合并（web coalesce）、网页打包（web pack）、网页解包（web unpack）和网页排序（web sort），以增加查看查询结果的灵活性。

1.6 网页数据仓库的应用

网页数据仓库有两个重要应用：
- 变更管理 ：基于将两个版本的网页数据表示为网页表，并使用一组网页代数运算符操作这些网页表来检测变更。将网页差异表示为差异网页表，可进一步操作。
- 知识发现 ：设计了从查询结果中发现可见节点、发光节点和发光路径的算法。

2. 未来工作展望

2.1 扩展耦合查询和全局网页耦合操作

目前，耦合查询是具有单个源顶点的有向、连通无环图。未来计划将其推广为具有多个源顶点的循环图，并允许基于否定条件施加约束。此外，将开发一种机制来估计耦合查询在网页上的评估成本，以优化全局网页耦合操作的成本。同时，打算扩展耦合查询的概念，使其能够自动填写表单并检索结果。最后，优化全局网页耦合操作，使其能够模拟浏览行为，利用超链接标签的语义信息进行启发式搜索。

2.2 优化简单模式集的大小

正在研究减少网页表中简单模式数量与网页元组数量之比的问题。如果简单模式数量超过一定阈值，将开发技术进行缩减。例如，若两个简单模式的相似度较高，可将它们合并为一个模式。

2.3 扩展网页代数

由于万维网的复杂性，认为需要更多的网页运算符来有效操作和重组网页信息。未来将定义和实现这些额外的运算符。

2.4 设计高级声明式查询语言

计划设计和实现一种高级声明式查询语言，用于查询网页仓库，提高查询的表达能力和易用性。

2.5 高效实现和性能评估

对各种网页运算符进行高效实现，并评估其性能，以确保系统在处理大规模网页数据时的效率。

2.6 探索网页仓库的维护问题

研究网页仓库的维护问题，包括数据更新、模式演化等，以保证仓库数据的准确性和一致性。

2.7 处理动态生成的网页

目前未考虑动态生成的网页，未来将扩展工作以检索和操作此类网页。

2.8 探索数据挖掘技术

探索在网页仓库中应用数据挖掘技术，开发网页挖掘模块，以发现更多有价值的知识。

通过以上工作，有望进一步提高网页数据仓库的性能和功能，为用户提供更高效、准确的知识发现和数据管理服务。

3. 技术点分析与操作步骤

3.1 知识发现查询操作步骤

知识发现查询是从网页数据仓库中获取有用信息的重要手段，其具体操作步骤如下：
1. 确定查询参数 ：
- 明确相关网页数据集，通过提供网页表模式中的节点类型标识符来指定。
- 确定待发现的知识类型，如可见性、发光性或发光路径。
- 设定待发现知识的阈值，若不指定则使用默认值。
2. 构建查询语句 ：根据上述参数，按照简化 BNF 语法构建查询语句。例如，若要发现可见节点，可构建如下查询：

DISCOVER
visibility
FOR
z
FROM
Cancer
WHERE THRESHOLD = 0.8

执行查询 ：将构建好的查询语句提交给网页数据仓库系统，系统根据查询语句进行知识发现操作，并返回结果。

3.2 网页代数运算符操作流程

网页代数运算符用于从网页中提取相关数据，生成新的网页表，其操作流程如下：

graph LR
    A[输入网页表] --> B{选择运算符}
    B -->|全局网页耦合| C[提取万维网部分数据]
    B -->|网页并| D[合并两个网页表]
    B -->|网页连接| D
    B -->|网页选择| E[提取子集]
    B -->|网页投影| F[移除部分节点]
    B -->|网页去重| G[移除重复元组]
    C --> H[输出新网页表]
    D --> H
    E --> H
    F --> H
    G --> H

具体操作步骤如下：
1. 输入网页表 ：将需要操作的网页表作为输入。
2. 选择运算符 ：根据需求选择相应的网页代数运算符，如全局网页耦合、网页并等。
3. 执行操作 ：系统根据选择的运算符对输入的网页表进行操作。
4. 输出结果 ：操作完成后，输出新的网页表。

3.3 数据可视化运算符操作说明

数据可视化运算符用于增加查看查询结果的灵活性，以下是部分运算符的操作说明：
| 运算符 | 操作步骤 |
| ---- | ---- |
| 网页嵌套（web nest） | 1. 选择要操作的网页元组集合。
2. 系统将这些网页元组在相同节点上进行连接，生成有向图作为输出。 |
| 网页打包（web pack） | 1. 指定节点类型标识符或关键字集。
2. 系统根据指定的条件对网页元组进行分组，生成新的网页表。 |
| 网页排序（web sort） | 1. 选择排序依据，如节点总数、本地链接总数等。
2. 系统根据选择的排序依据对网页元组进行排序，生成新的网页表。 |

3.4 变更管理操作流程

变更管理用于检测网页数据的变化，其操作流程如下：

graph LR
    A[两个版本的网页数据] --> B[表示为网页表]
    B --> C[使用网页代数运算符操作]
    C --> D[检测变更]
    D --> E[表示为差异网页表]
    E --> F[进一步操作]

具体操作步骤如下：
1. 数据表示 ：将两个版本的网页数据表示为网页表。
2. 操作网页表 ：使用一组网页代数运算符对这两个网页表进行操作。
3. 检测变更 ：通过操作结果检测网页数据的变更。
4. 表示差异 ：将网页差异表示为差异网页表。
5. 进一步操作 ：对差异网页表进行进一步的处理和分析。