初识知识图谱
想写这一系列的博客已经酝酿了N久,最近出差到成都,夜晚的成都是我见过最具有生活气息的城市了(没有之一),无论是街头巷尾,从火辣辣的火锅到诱人的串串,又或是街边露天的小吃店,无一不让人觉得充满了这座城市充满了生活的美好。约上三五好友,于万家灯火时,穿过宽巷,走过窄巷,感受那“把手插在裤兜,走到玉林路的尽头”的韵味。这种感觉和白日里在CBD,穿梭在耸立的写字楼中是完全不一样的。成都宛若一个神秘的带着面纱的东方美女,现代与古老交织融合一体,既充满了活力又充满了市井的气息,这种朦胧感-------恰似近几年火热的知识图谱一样,仿佛无所不能,仿佛无处不在,又仿佛高不可攀。我将竭尽所能,梳理知识图谱相关脉络,先从背景和起源开始,随后沿着知识图谱的生命周期脉络(从知识抽取,到知识融合,到知识表示,到知识计算—这里为什么用这几个名词来定义知识图谱生命周期的各个阶段后面会再详细介绍)。
时间回到到2012年5月16日,Google公司通过其官方微博正式发布搜索页面的新功能—知识图谱(Knowledge Graph),无论是在当时还是现在,这都被誉为Google搜索上线以来的最大变革。传统的搜索引擎是往往是基于PageRank(以谷歌公司的创办人Larry Page的姓来命名)的超链接计算技术(当然远不止这一种基于链接相关的排名算法,其他还有HITS、TrustRank等等)。并且为了抵御spam(一种通过搜索引擎算法的漏洞来提高目标页面的重要性,使目标页面在搜索结果中排名靠前技术的统称),各家搜索引擎基于此的具体实现也不尽相同,这里对最基础的PageRank做基本的简要说明。<