33、网页表格与知识库实体匹配：从实体查找至实体嵌入

最新推荐文章于 2025-11-16 23:15:23 发布

c7d8e9

最新推荐文章于 2025-11-16 23:15:23 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏：语义网的现在与未来文章标签：网页表格知识库实体匹配

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c7d8e9/article/details/151005995

语义网的现在与未来专栏收录该内容

93 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

网页表格与知识库实体匹配：从实体查找至实体嵌入

在当今的网络世界中，网页表格蕴含着丰富的信息，从网络搜索到知识库扩充等诸多应用都离不开对这些表格的有效利用。而将网页表格的行与网页知识库中实体的语义丰富描述进行匹配，是实现这些应用的关键前提。本文将深入探讨三种无监督的标注方法，并通过实验评估它们的效果。

1. 引言

互联网上存在大量以结构化数据形式嵌入 HTML 页面的网页表格。据估算，谷歌英文文档索引中包含 1.54 亿个高质量关系表格，这些表格是关于现实世界实体（如人物、地点、产品）事实的宝贵来源。同时，网络上也有大量以关联数据形式描述的现实世界实体，例如仅英文版本的 DBpedia 就用 11 亿个三元组描述了 620 万个实体。

网页表格标注是许多应用的先决条件，如网页表格搜索或知识库扩充。本文主要聚焦于实例级匹配（表格行与知识库实体的匹配），而将模式级匹配（表格列与知识库属性的匹配）排除在研究范围之外。

下面通过一个例子来直观理解网页表格与知识库实体的匹配问题。假设有一个描述国家按人口排名的网页表格，以及在 Wikidata 中相同国家的描述。表格的标题行给出了所描述实体的属性名称，每一行描述一个现实世界的实体，每一列包含相应属性的值。而在知识库中，这些实体以图的形式进行描述，例如中国在 Wikidata 中由节点 Q148 表示，它属于国家类型（节点 Q6256），标签为“中华人民共和国”，并且通过属性 P36（首都）与节点 Q956（北京）相关联。

然而，网页表格标注面临着几个关键挑战：
- 实体类型不确定 ：表格中描述的实体类型事先未知，并且可能对应目标知识库中的多种类型。例如，

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。