文章目录
题目归属及框架



前言
谷歌公司正在打造人类历史上最大的知识库Knowledge Vault
这个被冠以Knowledge Vault之名的知识库无需任何人工干预,就能自动搜集源自互联网的信息并将其整合成单一的事实库,内容涉及世界、人物以及相关对象。这种知识采集机制达到的广度和精度,正在日益成为各种便于机器人和智能手机理解人们对其提问的系统的基础。它有望让“谷歌”超越搜索引擎功能,像“甲骨文”(Oracle)数据库那样回答问题,甚至还能从新的视角来考察人类历史。
这在篇文章中,作者分析了knowledge vault(KV)知识库这一自动化的过程是如何运转的。
概述
当今世界上已经存在了很多成熟的知识库,但要使知识库的规模更大,需要探索一种自动化的方法来构建数据库。因此,作者在本文提出了一种web规模的概率知识融合方法,将从web上抽取的资源与现有的知识库(如freebase)相结合,并使用了监督学习。正因如此,KV的规模以以往的知识库都要来的大。
关键词:知识库;知识抽取;概率方法;机器学习
动机
-
现有的知识库虽然到达了比较大的规模,但仍具有不完整性,例如Freebase中,71%的人没有出生地。
-
直接从web资源上摘录下来的信息,具有较大的噪声,数据无法直接利用,有很多可信度不高。
贡献
- 使用已有知识库里的先验知识,与web上爬取下来的带有噪声的数据相结合。利用已有的三元组,经过知识推理判断新三元组的正确性,先验概率模型的出现解决了抽取过程中出现错误的问题。
- KV的规模比相同的知识库大。
- 对不同的抽取方法及先验概率方法进行了详细的比较。
KV组件
- 抽取器Extractors:负责从web资源抽取知识,每个抽取器会对实体分配一个置信分数,以此表明该三元组的正确率
- 基于图的先验概率模型Graph-based priors:负责基于已有的知识库,来计算每个三元组的先验概率
- 知识融合Knowledge fusion:负责基

最低0.47元/天 解锁文章
5614

被折叠的 条评论
为什么被折叠?



