知识图谱入门到实战之1.知识图谱基础

1.为什么要用知识图谱

知识图谱是由Google在2012年5⽉16⽇提出的,⽬的是为了提升搜索引擎返回的答案质量和⽤户查询的效率。 在搜索的场景下,有知识图谱作为辅助,搜索引擎能够洞察⽤户查询背后的语义信息,返回更为精准、结构化的信息,更⼤可能地满⾜⽤户的查询需求,比如搜索1个人物,会出现⾮常完整的相关信息。
Google知识图谱的宣传语things not strings给出了知识图谱的精髓,即不要⽆意义的字符串、⽽是获取字符串背后隐含的对象或事物。

知识图谱与深度学习的对比:

  • 深度学习:见过大世面(大数据)的AI,擅长感知、识别、统计学习、概率判断,但是解释性低、需要大量数据提升其泛化性
  • 知识图谱:知识渊博的AI,擅长结构知识、思考逻辑、推理,解释性强、不需要大量数据,但是仅仅依靠专家系统无法实现扩展和高效
  • 相互结合:相辅相成实现更强的人工智能,学而不思则罔、思而不学则殆

语⾔理解需要背景知识:东方人难以理解⻄⽅⼈的笑话,反之亦如此,这是因为缺少共同的⽂化背景,⾃然地,机器理解语⾔也需要背景知识。
知识图谱可解释⼈⼯智能,越专业的领域对可解释性的要求越高。知识引导将是解决问题的重要⽅式之⼀,知识密集型应用对知识引导的要求很高。

2.知识图谱的前世今生

(1)发展脉络

知识图谱的发展脉络:

  • 1960年代,出现语义网络,包含了相互连接的节点和边,节点代表概念或对象、边代表节点之间的关系,例如is a、part of、has a等。
  • 1980年代,引入哲学概念本体,一个共享概念化的形象化明确规范(a formal explicit specification of a shared conceptualization),即本体就是精确定义了某一领域的一些概念,以及描述这些概念的特性、概念之间的关系的属性,以及属性的约束等,同时这种定义和描述是可以被计算机理解的、且被共同接受的。
  • 1989年,出现万维网,启发来自于人脑可以透过互相联摄的神经传递信息,电脑文件也互相连接形成超文本
  • 1998年,从超文本链接到语义链接(Semantic Web),主要是为了让网络上的数据更加机器可读、对机器更加友好,使得数据相互连接、而非仅仅文档链接。
  • 2006年,实现开放数据之间的链接。
  • 2012年,Google正式提出知识图谱的概念。

(2)发展阶段

虽然知识图谱的概念较新,但它并非是一个全新的研究领域,所以谷歌提出KG为界线,可以简单地分为传统知识工程、大数据知识工程2个阶段。

(1)传统知识工程
知识⼯程源于符号主义,符号主义认为知识是智能的基础。符号主义(symbolicism),⼜称为逻辑主义、⼼理学派或计算机学派,其原理主要为物理符号系统(即符号操作系统)假设和有限合理性原理。符号主义认为⼈⼯智能源于数理逻辑。数理逻辑从19世纪末起得以迅速发展,到20世纪30年代开始⽤于描述智能⾏为。 计算机出现后,⼜在计算机上实现了逻辑演绎系统。其有代表性的成果为启发式程序逻辑理论家LT(Logic Theorist)。逻辑理论家证明了数学名著《数学原理》⼀书第⼆章52个定理中的38个定理,受到了⼈们的⾼度评价,认为是⽤计算机探讨⼈类智⼒活动的第⼀个真正的成果。 符号主义曾⻓期⼀枝独秀,为⼈⼯智能的发展作出重要贡献,尤其是专家系统的成功开发与应⽤,为⼈⼯智能⾛向⼯程应⽤和实现理论联系实际具有特别重要的意义。

在符号主义思潮的影响下,和现在以⼤数据为基础的⼈⼯智能不同,早期的⼈⼯智能专家认为,不管是机器的智能还是⼈的智能,本质都是符号的操作和运算,因此,⼈⼯智能的核⼼问题是如何表示知

### 知识图谱的概念与技术实现 知识图谱是一种以图形结构表示和组织知识的方式,其核心目标是通过语义关系将实体连接起来,形成一个庞大的知识网络[^1]。这种技术架构起源于人工智能和语义网领域,并在2012年因Google推出的知识图谱而进入主流视野[^1]。 #### 技术实现 知识图谱的技术实现涉及多个关键环节,包括数据获取、数据清洗、实体识别、关系抽取以及图谱构建等。具体而言: - **数据获取**:从结构化、半结构化或非结构化数据源中提取信息,例如数据库、网页内容或自然语言文本。 - **数据清洗**:对获取的数据进行去噪、标准化处理,确保数据质量。 - **实体识别**:利用自然语言处理技术识别出文本中的实体,如人名、地名、组织名等。 - **关系抽取**:分析实体之间的语义关系,例如“属于”、“位于”或“包含”。 - **图谱构建**:将实体和关系以图的形式存储,通常使用RDF(Resource Description Framework)或图数据库(如Neo4j)作为底层存储技术[^2]。 ```python # 示例代码:使用Neo4j创建简单的关系图 from neo4j import GraphDatabase def create_graph(driver): with driver.session() as session: session.run("CREATE (a:Entity {name: 'EntityA'})") session.run("CREATE (b:Entity {name: 'EntityB'})") session.run("MATCH (a:Entity {name: 'EntityA'}), (b:Entity {name: 'EntityB'}) CREATE (a)-[:RELATES_TO]->(b)") driver = GraphDatabase.driver("bolt://localhost:7687", auth=("neo4j", "password")) create_graph(driver) ``` #### 应用场景 知识图谱的应用场景非常广泛,涵盖了搜索引擎优化、智能问答系统、推荐系统等领域。以下是一些典型的应用案例: - **搜索引擎**:通过知识图谱,搜索引擎能够理解用户的查询意图并提供更精准的结果。例如,当用户搜索“巴黎”,系统可以区分出这是指法国的首都还是其他含义[^1]。 - **虚拟助手**:智能助手(如Siri、Alexa)依赖知识图谱来理解和回答用户的问题,提供个性化的服务。 - **推荐系统**:基于用户的行为数据和知识图谱中的关系,推荐系统可以为用户提供更加精准的内容推荐。 #### 构建方法 知识图谱的构建方法主要包括自动生成和人工编辑两种方式。自动构建主要依赖机器学习和自然语言处理技术,从大规模文本中提取实体和关系;而人工编辑则需要领域专家参与,确保知识的准确性和完整性[^2]。 ---
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东哥说AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值