知识图谱基础
1.为什么要用知识图谱
知识图谱是由Google在2012年5⽉16⽇提出的,⽬的是为了提升搜索引擎返回的答案质量和⽤户查询的效率。 在搜索的场景下,有知识图谱作为辅助,搜索引擎能够洞察⽤户查询背后的语义信息,返回更为精准、结构化的信息,更⼤可能地满⾜⽤户的查询需求,比如搜索1个人物,会出现⾮常完整的相关信息。
Google知识图谱的宣传语things not strings给出了知识图谱的精髓,即不要⽆意义的字符串、⽽是获取字符串背后隐含的对象或事物。
知识图谱与深度学习的对比:
- 深度学习:见过大世面(大数据)的AI,擅长感知、识别、统计学习、概率判断,但是解释性低、需要大量数据提升其泛化性
- 知识图谱:知识渊博的AI,擅长结构知识、思考逻辑、推理,解释性强、不需要大量数据,但是仅仅依靠专家系统无法实现扩展和高效
- 相互结合:相辅相成实现更强的人工智能,学而不思则罔、思而不学则殆
语⾔理解需要背景知识:东方人难以理解⻄⽅⼈的笑话,反之亦如此,这是因为缺少共同的⽂化背景,⾃然地,机器理解语⾔也需要背景知识。
知识图谱可解释⼈⼯智能,越专业的领域对可解释性的要求越高。知识引导将是解决问题的重要⽅式之⼀,知识密集型应用对知识引导的要求很高。
2.知识图谱的前世今生
(1)发展脉络
知识图谱的发展脉络:
- 1960年代,出现语义网络,包含了相互连接的节点和边,节点代表概念或对象、边代表节点之间的关系,例如is a、part of、has a等。
- 1980年代,引入哲学概念本体,一个共享概念化的形象化明确规范(a formal explicit specification of a shared conceptualization),即本体就是精确定义了某一领域的一些概念,以及描述这些概念的特性、概念之间的关系的属性,以及属性的约束等,同时这种定义和描述是可以被计算机理解的、且被共同接受的。
- 1989年,出现万维网,启发来自于人脑可以透过互相联摄的神经传递信息,电脑文件也互相连接形成超文本。
- 1998年,从超文本链接到语义链接(Semantic Web),主要是为了让网络上的数据更加机器可读、对机器更加友好,使得数据相互连接、而非仅仅文档链接。
- 2006年,实现开放数据之间的链接。
- 2012年,Google正式提出知识图谱的概念。
(2)发展阶段
虽然知识图谱的概念较新,但它并非是一个全新的研究领域,所以谷歌提出KG为界线,可以简单地分为传统知识工程、大数据知识工程2个阶段。
(1)传统知识工程
知识⼯程源于符号主义,符号主义认为知识是智能的基础。符号主义(symbolicism),⼜称为逻辑主义、⼼理学派或计算机学派,其原理主要为物理符号系统(即符号操作系统)假设和有限合理性原理。符号主义认为⼈⼯智能源于数理逻辑。数理逻辑从19世纪末起得以迅速发展,到20世纪30年代开始⽤于描述智能⾏为。 计算机出现后,⼜在计算机上实现了逻辑演绎系统。其有代表性的成果为启发式程序逻辑理论家LT(Logic Theorist)。逻辑理论家证明了数学名著《数学原理》⼀书第⼆章52个定理中的38个定理,受到了⼈们的⾼度评价,认为是⽤计算机探讨⼈类智⼒活动的第⼀个真正的成果。 符号主义曾⻓期⼀枝独秀,为⼈⼯智能的发展作出重要贡献,尤其是专家系统的成功开发与应⽤,为⼈⼯智能⾛向⼯程应⽤和实现理论联系实际具有特别重要的意义。
在符号主义思潮的影响下,和现在以⼤数据为基础的⼈⼯智能不同,早期的⼈⼯智能专家认为,不管是机器的智能还是⼈的智能,本质都是符号的操作和运算,因此,⼈⼯智能的核⼼问题是如何表示知