网页数据仓库中的知识发现与未来发展
1. 网页数据仓库中的知识发现
1.1 知识发现的关键要素
在网页数据仓库中进行知识发现时,需要明确几个关键要素:
-
相关网页数据集
:在知识发现查询中,应指定与任务相关的网页数据集合。由于用户可能对网页仓库中的任何部分数据感兴趣,知识发现系统需能处理特定的网页数据子集。这意味着知识发现过程会先识别子任务以检索相关数据集(如节点),再从中获取有用信息。
-
待发现的知识类型
:查询中应明确待发现的知识类型。理想情况下,知识发现系统能自主进行有意义的发现,但由于网页仓库中的知识发现方式多样,无引导的自主发现可能产生大量不同类型的知识,其中很多可能对用户无用。因此,提出了用户驱动的知识发现,需同时指定发现过程所基于的相关网页数据和待发现的知识类型。
-
阈值设定
:用户可交互地指定各种阈值,用于筛选出有趣的知识,过滤掉低于指定阈值、不太有趣的知识。
1.2 知识发现的查询语言
基于上述考虑,设计了一种查询语言,用于在网页仓库中挖掘不同类型的知识。该查询语言包含三个主要参数的规范:
-
相关网页数据集
:通过提供网页表模式中的节点类型标识符来指定。
-
待发现的知识类型
:包括可见性(visibility)、发光性(luminosity)或发光路径(luminous path)。
-
待发现知识的阈值
:根据在网页仓库中待发现的知识类型,可指定一组不同的阈值。
查询语言的简化 BNF 语法如下:
⟨WQL⟩::=
DISCOVER ⟨knowledge type⟩
[FOR ⟨node type identifier(s)⟩]
[BETWEEN ⟨node type identifiers⟩]
FROM ⟨web table name⟩
[WHERE THRESHOLD = ⟨threshold value⟩]
各部分含义如下:
| 部分 | 含义 |
| ---- | ---- |
|
DISCOVER ⟨knowledge type⟩
| 指定待发现的知识类型,支持的类型有可见节点(
visibility
)、发光节点(
luminosity
)、发光路径(
luminous path
) |
|
FROM ⟨web table name⟩
| 指定从哪个网页表中发现知识 |
|
FOR ⟨node type identifier(s)⟩
| 指定在网页表中对哪些节点类型标识符进行指定知识的发现,用于可见性和发光性知识类型 |
|
BETWEEN ⟨node type identifiers⟩
| 当知识类型为发光路径时,指定起始和结束节点类型标识符 |
|
WHERE THRESHOLD = ⟨threshold value⟩
| 指定待发现知识的阈值,若用户未指定则使用默认值 |
1.3 查询示例
以下是不同类型知识发现的查询示例:
-
发现可见节点
:
DISCOVER
visibility
FOR
z
FROM
Cancer
WHERE THRESHOLD = 0.8
- 发现发光路径 :
DISCOVER
luminous path
BETWEEN
y and z
FROM
Cancer
WHERE THRESHOLD = 0.4
1.4 三种知识类型的作用
使用网页包发现的三种知识类型有以下作用:
-
可见网页
:由于网页查询结果可能数量巨大,可见网页的概念让用户能逐步查看针对其查询的热门网页文档。用户可根据阈值生成较小的可见网页集合并浏览感兴趣的信息,通过修改阈值可改变可见网页集合,减少浏览网页的认知负担。从查询处理角度看,相关查询可从一个或多个可见网页开始爬取,减少返回结果数量和查询处理成本。
-
发光网页
:发光网页能告知用户与其他相关网页的连接情况。例如,许多网站在“其他相关站点”锚点下有热门链接,更多此类链接表示网页文档对其他相关参考源的了解程度。此信息可用于执行类似查询,使爬取从这些站点开始。
-
发光路径
:发光路径能帮助识别所有返回结果中的共同遍历路径,用户只需浏览这些网页一次。
1.5 网页数据仓库的基础模型与操作
为了有效管理网页数据,提出了仓库对象模型(WHOM),并定义了一组网页代数运算符。
1.5.1 仓库对象模型(WHOM)
WHOM 作为网页仓储系统的基本数据模型,主要由两部分组成:
-
网页对象集
:包括网页元组和网页模式,它们构成网页表。网页元组是满足网页模式的有向图,由节点和链接组成,节点和链接分别是节点类型和链接类型的实例,包含网页文档和超链接的元数据、结构和内容信息。
-
网页运算符集
:用于操作网页数据。
1.5.2 网页代数运算符
定义了一组网页代数运算符,用于从网页中提取相关数据,生成新的网页表:
| 运算符 | 功能 |
| ---- | ---- |
| 全局网页耦合(global web coupling) | 应用于网页时,提取万维网的一部分。用户指定耦合查询,结果是以网页元组形式存储在网页表中的相关文档集合 |
| 网页并(web union) | 二元运算符,根据特定条件合并两个网页表 |
| 网页连接(web join) | 二元运算符,根据特定条件合并两个网页表 |
| 网页选择(web select) | 从网页表中提取网页元组的子集 |
| 网页投影(web project) | 从网页表的网页元组中移除一些节点 |
| 网页去重(web distinct) | 从网页包中移除重复的网页元组 |
此外,还引入了一组数据可视化运算符,如网页嵌套(web nest)、网页解嵌套(web unnest)、网页合并(web coalesce)、网页打包(web pack)、网页解包(web unpack)和网页排序(web sort),以增加查看查询结果的灵活性。
1.6 网页数据仓库的应用
网页数据仓库有两个重要应用:
-
变更管理
:基于将两个版本的网页数据表示为网页表,并使用一组网页代数运算符操作这些网页表来检测变更。将网页差异表示为差异网页表,可进一步操作。
-
知识发现
:设计了从查询结果中发现可见节点、发光节点和发光路径的算法。
2. 未来工作展望
2.1 扩展耦合查询和全局网页耦合操作
目前,耦合查询是具有单个源顶点的有向、连通无环图。未来计划将其推广为具有多个源顶点的循环图,并允许基于否定条件施加约束。此外,将开发一种机制来估计耦合查询在网页上的评估成本,以优化全局网页耦合操作的成本。同时,打算扩展耦合查询的概念,使其能够自动填写表单并检索结果。最后,优化全局网页耦合操作,使其能够模拟浏览行为,利用超链接标签的语义信息进行启发式搜索。
2.2 优化简单模式集的大小
正在研究减少网页表中简单模式数量与网页元组数量之比的问题。如果简单模式数量超过一定阈值,将开发技术进行缩减。例如,若两个简单模式的相似度较高,可将它们合并为一个模式。
2.3 扩展网页代数
由于万维网的复杂性,认为需要更多的网页运算符来有效操作和重组网页信息。未来将定义和实现这些额外的运算符。
2.4 设计高级声明式查询语言
计划设计和实现一种高级声明式查询语言,用于查询网页仓库,提高查询的表达能力和易用性。
2.5 高效实现和性能评估
对各种网页运算符进行高效实现,并评估其性能,以确保系统在处理大规模网页数据时的效率。
2.6 探索网页仓库的维护问题
研究网页仓库的维护问题,包括数据更新、模式演化等,以保证仓库数据的准确性和一致性。
2.7 处理动态生成的网页
目前未考虑动态生成的网页,未来将扩展工作以检索和操作此类网页。
2.8 探索数据挖掘技术
探索在网页仓库中应用数据挖掘技术,开发网页挖掘模块,以发现更多有价值的知识。
通过以上工作,有望进一步提高网页数据仓库的性能和功能,为用户提供更高效、准确的知识发现和数据管理服务。
3. 技术点分析与操作步骤
3.1 知识发现查询操作步骤
知识发现查询是从网页数据仓库中获取有用信息的重要手段,其具体操作步骤如下:
1.
确定查询参数
:
- 明确相关网页数据集,通过提供网页表模式中的节点类型标识符来指定。
- 确定待发现的知识类型,如可见性、发光性或发光路径。
- 设定待发现知识的阈值,若不指定则使用默认值。
2.
构建查询语句
:根据上述参数,按照简化 BNF 语法构建查询语句。例如,若要发现可见节点,可构建如下查询:
DISCOVER
visibility
FOR
z
FROM
Cancer
WHERE THRESHOLD = 0.8
- 执行查询 :将构建好的查询语句提交给网页数据仓库系统,系统根据查询语句进行知识发现操作,并返回结果。
3.2 网页代数运算符操作流程
网页代数运算符用于从网页中提取相关数据,生成新的网页表,其操作流程如下:
graph LR
A[输入网页表] --> B{选择运算符}
B -->|全局网页耦合| C[提取万维网部分数据]
B -->|网页并| D[合并两个网页表]
B -->|网页连接| D
B -->|网页选择| E[提取子集]
B -->|网页投影| F[移除部分节点]
B -->|网页去重| G[移除重复元组]
C --> H[输出新网页表]
D --> H
E --> H
F --> H
G --> H
具体操作步骤如下:
1.
输入网页表
:将需要操作的网页表作为输入。
2.
选择运算符
:根据需求选择相应的网页代数运算符,如全局网页耦合、网页并等。
3.
执行操作
:系统根据选择的运算符对输入的网页表进行操作。
4.
输出结果
:操作完成后,输出新的网页表。
3.3 数据可视化运算符操作说明
数据可视化运算符用于增加查看查询结果的灵活性,以下是部分运算符的操作说明:
| 运算符 | 操作步骤 |
| ---- | ---- |
| 网页嵌套(web nest) | 1. 选择要操作的网页元组集合。
2. 系统将这些网页元组在相同节点上进行连接,生成有向图作为输出。 |
| 网页打包(web pack) | 1. 指定节点类型标识符或关键字集。
2. 系统根据指定的条件对网页元组进行分组,生成新的网页表。 |
| 网页排序(web sort) | 1. 选择排序依据,如节点总数、本地链接总数等。
2. 系统根据选择的排序依据对网页元组进行排序,生成新的网页表。 |
3.4 变更管理操作流程
变更管理用于检测网页数据的变化,其操作流程如下:
graph LR
A[两个版本的网页数据] --> B[表示为网页表]
B --> C[使用网页代数运算符操作]
C --> D[检测变更]
D --> E[表示为差异网页表]
E --> F[进一步操作]
具体操作步骤如下:
1.
数据表示
:将两个版本的网页数据表示为网页表。
2.
操作网页表
:使用一组网页代数运算符对这两个网页表进行操作。
3.
检测变更
:通过操作结果检测网页数据的变更。
4.
表示差异
:将网页差异表示为差异网页表。
5.
进一步操作
:对差异网页表进行进一步的处理和分析。
4. 总结
网页数据仓库在知识发现和数据管理方面具有重要作用。通过仓库对象模型(WHOM)和网页代数运算符,能够有效地管理和操作网页数据。知识发现功能可以帮助用户从海量的网页数据中获取有价值的信息,而数据可视化运算符则增加了查看查询结果的灵活性。变更管理和知识发现的应用进一步拓展了网页数据仓库的功能。
未来,通过扩展耦合查询和全局网页耦合操作、优化简单模式集的大小、扩展网页代数等工作,有望进一步提高网页数据仓库的性能和功能,为用户提供更高效、准确的知识发现和数据管理服务。同时,处理动态生成的网页和探索数据挖掘技术也将为网页数据仓库的发展带来新的机遇。
总之,网页数据仓库在当今信息时代具有广阔的应用前景,不断的技术创新和优化将使其在知识发现和数据管理领域发挥更大的作用。
超级会员免费看

被折叠的 条评论
为什么被折叠?



