网页表格与知识库实体匹配:从实体查找至实体嵌入
在当今的网络世界中,网页表格蕴含着丰富的信息,从网络搜索到知识库扩充等诸多应用都离不开对这些表格的有效利用。而将网页表格的行与网页知识库中实体的语义丰富描述进行匹配,是实现这些应用的关键前提。本文将深入探讨三种无监督的标注方法,并通过实验评估它们的效果。
1. 引言
互联网上存在大量以结构化数据形式嵌入 HTML 页面的网页表格。据估算,谷歌英文文档索引中包含 1.54 亿个高质量关系表格,这些表格是关于现实世界实体(如人物、地点、产品)事实的宝贵来源。同时,网络上也有大量以关联数据形式描述的现实世界实体,例如仅英文版本的 DBpedia 就用 11 亿个三元组描述了 620 万个实体。
网页表格标注是许多应用的先决条件,如网页表格搜索或知识库扩充。本文主要聚焦于实例级匹配(表格行与知识库实体的匹配),而将模式级匹配(表格列与知识库属性的匹配)排除在研究范围之外。
下面通过一个例子来直观理解网页表格与知识库实体的匹配问题。假设有一个描述国家按人口排名的网页表格,以及在 Wikidata 中相同国家的描述。表格的标题行给出了所描述实体的属性名称,每一行描述一个现实世界的实体,每一列包含相应属性的值。而在知识库中,这些实体以图的形式进行描述,例如中国在 Wikidata 中由节点 Q148 表示,它属于国家类型(节点 Q6256),标签为“中华人民共和国”,并且通过属性 P36(首都)与节点 Q956(北京)相关联。
然而,网页表格标注面临着几个关键挑战:
- 实体类型不确定 :表格中描述的实体类型事先未知,并且可能对应目标知识库中的多种类型。例如,
超级会员免费看
订阅专栏 解锁全文
727

被折叠的 条评论
为什么被折叠?



