中文知识图谱构建方法研究3

本文介绍了知识图谱在语义检索、知识导航及决策支持等领域的应用案例,并探讨了其背后的实现原理和技术挑战。

3 知识的应用

3.1 语义检索

传统的检索是基于关键词,搜索引擎并不理解用户的输入,仅对用户的输入进行切分得到关键词,得到关键词后再与目标数据进行匹配,把匹配的结果通过一定的排序算法返回给用户,用户在这些结果中选取想要的目标结果。

基于知识图谱的语义检索的目标在于理解用户的输入,为用户给出更加直接和准确的答案。语义检索分为三个过程:

(1)通过分词和实体识别从输入中识别概念、实体和属性;

(2)结合知识图谱的数据模式,对识别的结果进行理解;

(3)把理解的结果在目标数据集上进行搜索并返回结果;

如图所示,用户搜索“罗志祥的年龄”,不仅列出了罗志祥的年龄,还给出了罗志祥相关度较大的人物的年龄,右侧显示了罗志祥的关系图谱以及同年出生的人。这些检索结果看似简単,但这些场景背后蕴含着极其丰富的信息:首先,搜索引擎需要知道用户输入中的“罗志祥”代表的是一个人;其次,需要同时明白“年龄”一词代表什么含义;最后,还需要在后台有丰富的知识图谱数据的支撑,才能回答用户问题。


图3.1 搜狗搜索结果快照

3.2 知识导航

知识图谱包括了概念、实体以及它们之间的关系,是一个具备体系结构的知识库,因此可以辅助和引导用户进行学习:

(1)       实体和概念本身的知识,通常以知识卡片的形式提供;

(2)       实体、概念之间的关联关系,主要包括上下位层次关系和属性关系;

3.3 决策支持

决策支持系统,是一种辅助人类做决策的信息系统,强调的是支持而非替代人类进行决策。决策的过程主要是对数据、信息及相关资料进行统计与分析,从中发现数据的规律,为用户决定提供参考。

基于知识图谱的决策支持系统的优点如下:

(1)使得一些无结构或者离散孤立的数据的利用变得可能;

(2)同时也可以使用多种类型的数据进行综合分析,提供推理功能,更好地辅助用户决策。

基于知识图谱的决策支持系统的使用方法如下:

(1)使用基于自然语言的语义查询来获取结果;

(2)也可以使用所提供的SPARQL查询接口或RESTful接口进行知识的搜索;

4 参考文献

[1]     Buitelaar P, Cimiano P, Magnini B. Ontologylearning from text: methods, evaluation and applications[M]. IOS press, 2005.

[2]     Maedche A, Staab S. The text-to-onto ontologylearning environment[C]//Software Demonstration at ICCS-2000-EightInternational Conference on Conceptual Structures. 2000, 38.

[3]     Stojanovic L, Stojanovic N, Volz R. Migratingdata-intensive web sites into the semantic web[C]//Proceedings of the 2002 ACMsymposium on Applied computing. ACM, 2002: 1100-1107.

[4]     Shinzato K, Torisawa K. Acquiring HyponymyRelations from Web Documents[C]//HLT-NAACL. 2004: 73-80.

[5]     维基百科中文版. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91

[6]     互动百科. http://www.baike.com/

[7]     百度百科. http://baike.baidu.com/

[8]     Yin X, Shah S. Building taxonomy of web searchintents for name entity queries[C]//Proceedings of the 19th international conferenceon World wide web. ACM, 2010: 1001-1010.

[9]     Pasca M. Turning Web Text and Search Queriesinto Factual Knowledge: Hierarchical Class Attribute Extraction[C]//AAAI. 2008:1225-1230.

[10] Novak J D, Cañas A J. The theory underlyingconcept maps and how to construct and use them[J]. 2008.

[11] A.A Krizhanovsky and A.V. Smirnov. An approachto automated construction of a general-purpose lexical ontology based onWiktionary. Journal of Computer and Systems SciencesInternational,2013,52:215-225.

[12] HowNet.http://www.keenage.com/

[13] 梅家驹,高蕴奇.《同义词词林》.上海辞书出版社,1983.

[14] Auer S, Bizer C, Kobilarov G, et al. Dbpedia: Anucleus for a web of open data[M]. Springer Berlin Heidelberg, 2007.

[15] Fabian M S, Gjergji K, Gerhard W. YAGO: A coreof semantic knowledge unifying wordnet and wikipedia[C]//16th InternationalWorld Wide Web Conference, WWW. 2007: 697-706.

[16] Freebase. https://www.freebase.com/

[17] Niu X, Sun X, Wang H, et al. Zhishi. me-weavingchinese linking open data[M]//The Semantic Web–ISWC 2011. Springer BerlinHeidelberg, 2011: 205-220.

[18] Volz J, Bizer C, Gaedke M, et al. Discoveringand maintaining links on the web of data[M]. Springer Berlin Heidelberg, 2009.



基于多种数据源的中文知识图谱构建方法研究 自从语义网的概念提出以来,越来越多的开放链接数据和用户生成内容被发布于互联网中,互联网逐步从仅包含网页与网页之间超链接的文档万维网转变为包含大量描述各种实体和实体之间丰富关系的数据万维网。在此背景下,知识图谱首先由Google提出,其目标在于描述真实世界中存在的各种实体和概念,以及这些实体、概念之间的关联关系。知识图谱在实体层面对本体进行了丰富和扩充;本体中突出和强调的是概念以及概念之间的关联关系,描述了知识图谱的数据模式;而知识图谱则是在本体的基础上,增加了更加丰富的关于实体的信息。知识图谱在语义搜索、智能问答、知识工程、数据挖掘和数字图书馆等领域有着广泛的应用。本文在现有知识图谱及其本体构建研究的基础上,研究从多种数据源中构建中文知识图谱,在以下方面展开了研究工作:1.充分利用互联网中的各类结构化或半结构化的信息,包括各种开放链接数据、在线百科、行业网站等,这些数据在覆盖范围方面有较大的优势,更新速度也比较快。本文描述了从这些结构化或半结构化的数据源中抽取和学习知识的方法,利用这些数据在广度上的优势保证所构建知识图谱的质量。2.研究如何综合使用多种数据源构建中文知识图谱,结合各种数据源的优势,包括关系数据库中数据的准确性,互联网中的开放链接数据和领域公开知识库的广度优势,行业数据的深度优势等。提出一种基于多种数据源的知识图谱构建方法,该方法综合利用不同数据源的优势,相互辅助进行知识学习;同时利用多种数据源之间的冗余数据对知识图谱的准确性进行有效地保证。3.研究如何从大规模的互联网文本中抽取知识图谱形式的知识,提出一种基于自监督机器学习的开放中文关系抽取方法,用于抽取实体(概念)之间的同义关系、上下位关系和属性关系。该方法的主要优势在于能够使用从结构化数据或半结构化数据中得到的知识以及一些通用的启发式规则,自动标注语料。对于网页中文本内容的抽取,提出了一种基于启发式规则的网页正文内容抽取算法,自动识别网页中的正文内容。4.对于行业知识图谱构建,研究如何利用行业内部的结构化数据,设计了一种易于使用的从关系型数据到知识图谱语义数据的映射语言。同时研究如何自动地从互联网中发现行业数据,包括开放的知识库和行业网站等,提出了一种从少数行业种子关键词开始自动发现互联网中行业数据源的算法。5.研究如何提供在线协作编辑平台以有效地利用公众共享知识的积极性,以“众包”的方式编辑和完善知识图谱构建了一个知识图谱在线编辑平台,通过对学习算法进行配置以启动自动学习过程,然后在自动学习的结果上进行知识图谱的编辑。该平台主要优势有:能够支持大规模的用户并发编辑;能够与后台的自动知识学习引擎结合。最后,使用提出的知识图谱构建算法成功构建了一个具备7,392,384实体和60,842,064事实的中文通用知识图谱;与现有的知识库和数据集进行对比表明本知识图谱具备良好的覆盖度;同时,评估结果表明该知识图谱的平均准确率在95%以上。同时,本文还构建了一个鱼类知识图谱,由于构建时利用了多个现存的最完整的数据源,因此其覆盖度非常高,包含了已知的32000余种鱼类相关知识。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值