识别适用于本体的多记录网页文档
在处理网页文档时,我们常常需要判断一个给定的文档是否适用于特定的应用本体。下面将详细介绍相关的概念、启发式方法以及如何将这些方法结合起来进行文档识别。
1. 应用本体基础
在汽车广告和讣告等应用本体中,我们会定义对象集、关系集以及参与约束。
- 对象集 :例如汽车广告应用本体中的 Car ,它是我们关注的对象集,用 [-> object] 表示。
- 关系集 :通过包含对象集名称的名称来表示,如 Car has Year 、 PhoneNr is for Car 等。
- 参与约束 :以 min:max 对或 min:ave:max 三元组的形式存在于关系集名称中。 min 表示对象集中的对象参与关系集的最小次数, ave 表示预期的平均参与次数, max 表示最大参与次数, * 表示未知的最大次数。例如, Car [0:2.1:*] has Feature [1:*] 表明一辆汽车不一定有列出的特征,平均有2.1个特征,且列出的特征数量没有指定的最大值。
为了使参与约束具有广泛的代表性,我们采取了以下步骤:
1. 选择覆盖美国的十个不同地区。
2. 从每个
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



