Web文档与超链接的元数据及结构内容表示
在Web数据处理与分析中,准确表示Web文档和超链接的元数据、结构以及内容至关重要。下面将详细介绍相关的表示方法和技术。
1. 仓库对象模型概述
引入了节点(Node)和链接(Link)类型来表示Web文档和超链接的元数据、结构和内容。
- 节点类型(Node) :由名称、一组节点元数据属性和一组节点结构属性组成。节点元数据属性用于捕获与Web文档(不包括超链接)相关的元数据信息,如URL、最后修改日期和大小等。每个属性可以是原子的或复杂的,复杂的元数据属性包含另一级的元数据属性组件。节点结构属性用于建模Web文档的内容和结构。
- 链接类型(Link) :由名称、一组链接元数据属性、一组链接结构属性和一个引用标识符组成。链接元数据属性用于表示与超链接相关的元数据信息,如链接类型、源URL和目标URL等。
2. Web文档和超链接的元数据表示
2.1 HTML和XML文档的元数据
目前,HTML或XML文档可能具有以下元数据,部分元数据可能是分层的,可以进一步分解为更细粒度的元数据。
| 元数据类型 | 详细信息 |
| ---- | ---- |
| 文档URL | 可分解为主机名、域名、协议、路径、文件名和地理位置 |
| 服务器提供信息 | 格式、大小(字节)和最后修改日期,日期可进一步分解为月、日、年、星期和时间 |
超链接的元数据包括:
- 源URL:包含链接的Web文档的URL。
- 目标URL:被引用文档
超级会员免费看
订阅专栏 解锁全文
1515

被折叠的 条评论
为什么被折叠?



