16、Web数据查询：从谓词到连通性的探索

最新推荐文章于 2025-11-12 12:21:04 发布

xray4

最新推荐文章于 2025-11-12 12:21:04 发布

阅读量20

点赞数

CC 4.0 BY-SA版权

分类专栏：构建Web数据仓库的艺术文章标签：谓词 Web数据查询元数据谓词

本文链接：https://blog.youkuaiyun.com/xray4/article/details/154479691

构建Web数据仓库的艺术专栏收录该内容

49 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Web数据查询：从谓词到连通性的探索

1. 谓词概述

谓词是一种用于表达查询或其他检索任务中应匹配或不应匹配的Web数据部分的机制。主要分为两类：无比较谓词和比较谓词。并且，根据对Web数据的元数据、内容或结构施加的约束，这些谓词又进一步分为元数据谓词、内容谓词和结构谓词。

需要注意的是，谓词仅对Web文档和超链接的元数据、结构和内容施加条件，而不对文档间的关系施加约束。例如，以下是一些谓词示例：
- p1(x) ≡ METADATA::x[url] EQUALS "http://rex[.]nci[.]nih[.]gov/SQUAREFIELD3[.]html"
- p2(z) ≡ CONTENT::z[html.head.title] NON - ATTR CONT ":BEGIN WORD: + tumour + :END WORD:"
- p3(e) ≡ CONTENT::e[A] NON - ATTR ENCL "Treatment Statements"

这些谓词将部分文档和超链接进行了分类：
| 谓词 | 分类说明 |
| ---- | ---- |
| p1(x) | 代表URL等于 http://rex.nci.nih.gov/SQUAREFIELD3.html 的文档，且满足该谓词的节点对象或Web文档只有一个 |
| p2(z) | 代表标题中包含关键词“tumour”的一组文档 |
| p3(e) | 代表锚文本为“Treatment Statements”的