43、网络数据变化检测与知识发现：从Web表到Web包-优快云博客

本文链接：https://blog.youkuaiyun.com/xray4/article/details/154479903

网络数据变化检测与知识发现：从Web表到Web包

1. 网络数据变化检测

1.1 变化检测问题定义与解决方法

在网络仓库环境中，变化检测问题被正式定义。为解决该问题，采用将两个版本的Web数据表示为Web表，并通过一组Web代数运算符对这些Web表进行操作来检测变化。Web数据的变化以增量Web表的形式呈现，同时还实现了计算和表示与用户查询相关的Web数据变化的算法。

1.2 增量Web表的创建

增量Web表（如$\Delta^+$、$\Delta^-$和$\Delta_M$）的创建有一定规律。$\Delta^+$和$\Delta^-$ Web表的创建与$\Delta_M$ Web表类似，不同之处在于，$\Delta^+$的元组从插入元组集创建，$\Delta^-$的元组从删除元组集创建，且$W_{\Delta^+}$和$W_{\Delta^-}$的模式与$W_1$或$W_2$的Web模式相同。

1.3 后续工作方向

当前正在开展以下工作：
1. 算法研究 ：对生成增量Web表的算法进行分析和实证研究，通过实验评估算法性能，并研究其可扩展性问题。
2. 节点区分机制 ：目前增量Web表中的元组只有部分节点表示插入、删除或更新操作，需要建立一种机制来区分每个增量Web表中修改、新增或删除的节点，为此正在构建一个数据模型以对受影响的节点进行注释。
3. 查询语言设计 ：由于Web数据变化以Web表形式表示，可使用现有的Web运算符对这些表进行进一步操作和查询，因此正在设计和实现一种强大的查询语言用于变化管理系统。
4. 变化通知机制 ：计划在系统中实现类似文献中提出的变化通知机制，支持各种订阅服务，如检测、查询和报告用户感兴趣的变化。
5. 触发语言设计 ：基于变化检测系统的思想，设计一种事件 - 条件 - 动作触发语言。

2. Web包的引入

2.1 集合与包的概念

集合和包是密切相关的结构。当集合允许元素多次出现时，就称为包或多重集。在数据库中，虽然元组集合（即关系）是一种简单自然的数据模型，但商业系统很少纯粹基于集合。在某些情况下，数据库系统中的关系允许有重复元组，例如SQL中的“select distinct”和“select average of column”结构，使用包而不是集合能更好地解释。

2.2 关系包的优势

关系包近期受到关注，原因如下：
- 提高操作速度 ：允许关系为包而非集合可加快操作速度。例如，进行投影操作时，允许结果为包可独立处理每个元组，尽管结果集可能更大，但计算速度更快。
- 消除去重成本 ：将关系作为包可以消除从关系中去除重复项的成本。
- 节省后续操作时间 ：允许结果为包可节省后续关系操作（如并集）的时间。

2.3 Web包的概念与动机

在Web数据领域，虽然对Web数据模型和查询语言的研究兴趣增加，但很少有工作涉及Web数据中包的概念。由于万维网数据的不规则性和不完整性，该问题比关系包的相应问题更具挑战性。引入Web包的概念，旨在描述如何使用Web包发现不同类型的知识，如与用户查询相关的可见节点、发光节点和发光路径。

2.4 现有搜索和查询系统的不足

当前定位感兴趣信息的方法主要依赖浏览或向搜索引擎发送关键字，但存在以下缺点：
1. 链接信息利用不足 ：大多数搜索引擎（除Google外）在利用链接信息方面进展甚微，既不支持利用链接信息的查询，也不将链接信息作为查询结果的一部分返回。
2. 可见网站定位困难 ：用户可能希望从搜索引擎的查询结果中定位最可见的网站或文档，但目前只能手动操作，过程繁琐。
3. 发光网站定位不便 ：用户可能希望定位最发光的网站或文档，即具有最多出站链接的网站或文档，但目前只能手动访问每个Web文档来获取此信息。
4. 网站间连通性测量低效 ：当前搜索引擎无法有效测量网站间的连通性，而网站间连通性有助于确定网站的受欢迎程度。
5. 最常遍历路径查找困难 ：用户可能希望找到特定查询结果的最常遍历路径，但目前只能通过访问搜索结果中的每个文档并比较链接信息来实现，耗时较长。
6. Web文档管理不便 ：随着时间推移，用户会创建大量Web文档集合，但缺乏方便系统的方法来管理和发现其中的有用知识。

2.5 Web包的定义与创建

非正式地，Web包是包含多个相同Web元组的Web表。可以使用Web投影运算符从Web表的Web元组中消除一些节点来创建Web包。与关系投影运算符不同，Web投影运算符不会自动消除相同的Web元组，因此投影后的Web表可能包含相同的Web元组（即Web包），重复项的消除由用户显式发起。

2.6 Web包示例

例如，在一个Web表中，用户使用Web投影运算符消除某些节点后，部分Web元组变得相同，形成一个Web包。这表明某个文档可以通过不同路径到达，用户可以显式消除重复元组。

2.7 Web包带来的挑战与贡献

由于处理非结构化数据的WHOM数据模型更丰富，Web包带来了一些新挑战，如Web包的具体定义、创建方式、是否需要物化Web包及其优势、Web包对用户的有用性等。本章的贡献包括：
- 提出在用户查询结果中发现可见节点、发光节点和发光路径的问题。
- 正式引入和定义Web仓库中Web包的概念。
- 讨论使用Web包从Web仓库中获取不同类型知识的有用性，并提供发现这些知识的正式算法。

3. 相关工作

3.1 网页可见性和发光性的视角

网页或网站的可见性和发光性可从两个角度看待：与特定信息需求（如用户查询）的相关性，以及不考虑特定用户需求的绝对质量。相关性指标用于衡量网页与查询的相似度，质量指标通常使用链接信息区分频繁被引用的页面和不太可见的页面。

3.2 链接结构分析技术

链接结构分析有两种重要技术：共引方案和随机游走方案。共引方案基于两个页面指向同一页面时可能共享共同主题的思想；随机游走方案将Web建模为图，通过随机游走模型对页面进行排名。

3.3 具体的排名指标

3.3.1 PageRank

PageRank是一种衡量网页重要性的指标，一个页面的PageRank值$R_i$可根据其相邻页面的PageRank值和出度定义：
$R_i = (1 - d) + d\sum_{j = 1}^{n}\frac{R_j}{X_j}$
其中，$d$（$0 \leq d \leq 1$）是阻尼因子。直观上，一个页面的PageRank值高意味着有很多页面指向它，或者指向它的页面本身PageRank值高。PageRank可视为随机冲浪者访问页面的概率，阻尼因子表示冲浪者在每个页面感到厌烦并请求另一个随机页面的概率。Google搜索引擎使用PageRank作为排序页面的一个组件，但PageRank存在链接陷阱问题，即当两个页面相互指向但没有指向其他页面时，算法可能无法收敛。

3.3.2 相互强化方法

Kleinberg提出的相互强化方法将超链接视为对页面权威性的认可，用于定位与广泛主题查询相关的权威网页。该方法基于权威页面（包含大量主题信息）和枢纽页面（链接到许多相关权威页面）之间的相互强化关系。首先使用基于文本的搜索引擎获取与查询相关的根集，然后扩展根集得到基集，最后通过邻接矩阵计算权威和枢纽权重。该方法可用于增强Web搜索，但容易受到紧密社区效应的影响，即某些社区在链接分析算法中得分较高，但实际上并非该主题的权威。与PageRank不同，该方法的排名与查询相关。

3.3.3 Raﬁei和Mendelzon的方法

Raﬁei和Mendelzon考虑了PageRank和权威/枢纽模型的推广，引入了特定主题的冲浪和参数化随机游走步骤来计算排名。在随机游走中，冲浪者以概率$d$随机跳转到一个页面，或者跟随当前页面的出站链接。

以下是一个简单的mermaid流程图，展示Web数据变化检测和Web包知识发现的大致流程：

graph LR
    A[Web数据] --> B[Web表表示]
    B --> C[变化检测算法]
    C --> D[增量Web表]
    B --> E[Web投影运算符]
    E --> F[Web包]
    F --> G[知识发现（可见节点、发光节点等）]

表格：Web数据相关技术对比
| 技术 | 优点 | 缺点 |
| ---- | ---- | ---- |
| PageRank | 考虑链接结构，可衡量网页重要性 | 存在链接陷阱问题 |
| 相互强化方法 | 与查询相关，可定位权威网页 | 易受紧密社区效应影响 |
| Raﬁei和Mendelzon的方法 | 引入主题特定冲浪和参数化步骤 | 较复杂 |

列表总结：
1. Web数据变化检测通过Web表和代数运算符实现，增量Web表用于表示变化。
2. Web包的引入解决了现有搜索和查询系统的一些不足，可用于发现多种类型的知识。
3. 链接结构分析技术包括共引方案和随机游走方案，不同的排名指标各有优缺点。

4. Web包在知识发现中的应用

4.1 发现可见节点

在Web数据中，可见节点是指那些可以通过多条不同路径到达的节点。使用Web包可以有效地发现这些可见节点。具体操作步骤如下：
1. 创建Web包 ：使用Web投影运算符从Web表中创建Web包，使得相同的Web元组聚集在一起。
2. 分析Web包 ：统计每个Web包中相同元组的数量，数量越多表示该节点可以通过更多不同路径到达，即为更可见的节点。
3. 结果呈现 ：将可见节点及其对应的路径数量呈现给用户，方便用户参考。

4.2 发现发光节点

发光节点是指具有最多出站链接的节点。利用Web包发现发光节点的步骤如下：
1. 数据准备 ：将包含Web节点和链接信息的Web数据表示为Web表。
2. 创建Web包 ：运用Web投影运算符处理Web表，形成Web包。
3. 统计出站链接 ：对于每个Web包中的节点，统计其出站链接的数量。
4. 确定发光节点 ：出站链接数量最多的节点即为最发光的节点。

4.3 发现发光路径

发光路径是指在Web数据中具有重要连接意义的路径。发现发光路径的流程如下：
1. 构建Web图 ：将Web数据中的节点和链接构建成一个图结构。
2. 创建Web包 ：从Web图对应的Web表中创建Web包。
3. 分析路径 ：通过分析Web包中节点的连接关系，找出出现频率较高的路径，这些路径即为发光路径。
4. 路径评估 ：可以根据路径的长度、经过的重要节点等因素对发光路径进行评估，为用户提供更有价值的信息。

4.4 知识发现算法示例

以下是一个简单的伪代码示例，用于发现可见节点：

# 假设web_bags是一个包含Web包的列表，每个Web包是一个包含相同Web元组的列表
def find_visible_nodes(web_bags):
    visible_nodes = {}
    for web_bag in web_bags:
        node = web_bag[0]  # 取Web包中的一个元组代表该节点
        path_count = len(web_bag)  # 该Web包中相同元组的数量即为路径数量
        visible_nodes[node] = path_count
    # 按路径数量降序排序
    sorted_visible_nodes = sorted(visible_nodes.items(), key=lambda item: item[1], reverse=True)
    return sorted_visible_nodes

# 调用示例
web_bags = [
    [('node1', 'url1'), ('node1', 'url1'), ('node1', 'url1')],
    [('node2', 'url2'), ('node2', 'url2')],
    [('node3', 'url3')]
]
result = find_visible_nodes(web_bags)
print(result)

5. Web包相关的查询语言设计

5.1 查询语言的需求

为了更好地利用Web包进行知识发现，需要设计一种强大的查询语言。该查询语言应满足以下需求：
1. 支持Web包操作 ：能够对Web包进行创建、查询、修改等操作。
2. 灵活的查询条件 ：可以根据用户的需求设置不同的查询条件，如节点属性、路径数量等。
3. 结果呈现定制 ：允许用户定制查询结果的呈现方式，如排序、筛选等。

5.2 查询语言的设计原则

在设计查询语言时，应遵循以下原则：
1. 简洁性 ：语言的语法应简洁易懂，方便用户使用。
2. 可扩展性 ：能够方便地扩展新的功能和操作符。
3. 与现有系统兼容 ：尽量与现有的Web数据处理系统兼容，降低用户的学习成本。

5.3 查询语言示例

以下是一个简单的查询语言示例，用于查询可见节点：

-- 查询可见节点，按路径数量降序排序
SELECT node, COUNT(*) AS path_count
FROM web_bags
GROUP BY node
ORDER BY path_count DESC;

6. 总结与展望

6.1 总结

本文介绍了网络数据变化检测和Web包知识发现的相关内容。通过将Web数据表示为Web表，利用代数运算符进行变化检测，并以增量Web表表示变化。引入Web包的概念，解决了现有搜索和查询系统的一些不足，可用于发现可见节点、发光节点和发光路径等不同类型的知识。同时，还介绍了相关的链接结构分析技术和排名指标，以及Web包相关的查询语言设计。

6.2 展望

未来的研究方向包括：
1. 算法优化 ：进一步优化生成增量Web表和发现知识的算法，提高性能和可扩展性。
2. 查询语言完善 ：不断完善Web包相关的查询语言，增加更多的功能和操作符。
3. 应用拓展 ：将Web包的知识发现技术应用到更多领域，如社交网络分析、推荐系统等。
4. 系统集成 ：将Web包知识发现系统与现有的Web数据处理系统进行集成，提供更全面的服务。

以下是一个mermaid流程图，展示Web包知识发现的整体流程：

graph LR
    A[Web数据] --> B[Web表]
    B --> C[Web投影运算符]
    C --> D[Web包]
    D --> E{知识发现类型}
    E -->|可见节点| F[发现可见节点算法]
    E -->|发光节点| G[发现发光节点算法]
    E -->|发光路径| H[发现发光路径算法]
    F --> I[结果呈现]
    G --> I
    H --> I

表格：Web包知识发现相关技术对比
| 技术 | 优点 | 缺点 |
| ---- | ---- | ---- |
| 发现可见节点 | 可快速定位热门节点 | 依赖Web包的准确性 |
| 发现发光节点 | 可找出具有影响力的节点 | 统计出站链接可能较复杂 |
| 发现发光路径 | 可揭示重要连接关系 | 路径评估标准较难确定 |

列表总结：
1. Web包在知识发现中可用于发现可见节点、发光节点和发光路径，通过特定的算法和操作步骤实现。
2. 设计Web包相关的查询语言需要考虑需求和原则，以方便用户进行知识发现。
3. 未来的研究方向包括算法优化、查询语言完善、应用拓展和系统集成等。