网页表格与知识库实体匹配方法解析
在数据处理与知识整合的领域中,将网页表格与知识库实体进行匹配是一项关键任务。下面将详细介绍相关的匹配方法、算法及其实验情况。
1. 表格处理基础
在进行表格与知识库实体匹配前,有一些基础的处理和概念需要了解。例如,TableMiner采用两阶段过程将列映射到本体类,将单个单元格映射到实体。
- 第一阶段:采样阶段 :搜索候选匹配项,基于表格内容、页面标题、周围段落和表格标题进行相似度计算来对候选匹配项进行排序。逐行扫描表格,直到达到每列类型的动态置信度值。
- 第二阶段:使用第一阶段的类映射来细化候选实例映射 。虽然在第二阶段可以提供新的候选匹配项,但通常在第一次迭代就会收敛。
此外,还有一些常用的黄金标准数据集,它们在规模、关系存在情况和稀疏性等方面各有特点,有助于研究不同标注方法的质量受这些特征的影响。
| 名称 | 表格数量 | 行数 | 匹配数 | 每行平均表格数 | 每列平均表格数 | 含关系的表格 | 结构化程度 |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| T2D | 233 | 28,647 | 26,124 | 6 - 586 (123) | 3 - 14 (4.95) | 108 (46%) | 0.97 |
| Limaye | 296 | 8,670 | 5,278 | 6 - 465 (29) | 2 - 6 (3.79) | 78 (26%) | 0.59 |
| Wikipedia | 485,0
超级会员免费看
订阅专栏 解锁全文
1715

被折叠的 条评论
为什么被折叠?



