人工智能和知识图谱七:知识图谱在人工智能系统中的优势

知识图谱融入 AI 解决方案后,将带来诸多优势。这些优势涵盖互操作性、查询功能等技术改进以及可解释性、可信度、减少开发工作量等更高层次的关注点。本文概述了知识图谱的主要优势,以及它如何补充机器学习模型,助力打造更值得信赖的 AI。

**数据互操作性和集成:**知识图谱 (KG) 的优势在于通过提供通用语义层来统一来自不同来源的数据。使用共享标识符和本体,知识图谱可以连接以前孤立的数据——例如,将 CRM 中的客户资料与其在财务系统中的交易以及其在服务台的支持工单关联起来。互操作性源于遵循标准(例如 RDF、schema.org 或领域本体)并使用全局标识符(例如 RDF 中的 URL 或 IRI),从而使不同的数据集“使用同一种语言”。这意味着,只要创建到本体的映射,就可以以相对较低的摩擦将新的数据源插入到知识图谱中。其好处是,组织可以全面查询所有数据,而无需手动关联数据库之间的 ID。它有助于对核心业务实体(客户、产品等)进行全方位的了解。由于许多知识图谱使用 Web 标准,集成甚至延伸到组织外部——链接到 Wikidata 等外部知识图谱以获取更多上下文,或通过共享词汇表链接到合作伙伴数据。本质上,知识图谱充当数据结构或语义数据湖,其中所有内容都相互连接且可发现。这大大减少了在开发 AI 模型或进行分析时花费在数据整理上的时间,因为关系已预先集成在知识图谱中。正如艾伦·图灵研究所所言,知识图谱“方便访问和集成数据源”。

**富有表现力且灵活的查询:**与受限于预定义表连接的关系数据库不同,知识图谱支持复杂且临时的查询,这些查询反映了人类对关系的思考方式。想要找到像“过去两年内涉及召回的零件供应商”或“通过第三方间接合作的作者”这样的模式吗?在知识图谱中,这些多跳、有时模式灵活的查询通常可以用单个 SPARQL 或 Cypher 查询来表达。这种任意遍历且不需要严格模式对齐的能力是一大优势。图查询可以遵循未知长度的路径,处理可选关系,并且可以轻松地融入本体推理,例如,包含查询要求“车辆”的结果,而知识图谱可以返回轿车、卡车等,因为知道它们是车辆的子类。因此,分析师和人工智能系统可以提出更丰富的问题。例如,推荐引擎可以查询“给我这个用户的朋友的朋友,他们喜欢 X 类别的产品”,以获得更广泛的推荐基础。或者,分析师可以查询文献知识图谱“查找引用了与主题 B 论文共同的论文的主题 A 的论文”,以识别跨学科影响。因此,知识图谱充当强大的可查询知识库,通常支持全文搜索或与语义条件集成的地理空间查询等功能。灵活性还意味着数据模型可以在没有痛苦的模式迁移的情况下发展——可以在不破坏现有查询的情况下将新的实体类型或关系添加到图谱中,这在动态环境中非常重要。传统数据库在这里举步维艰,而知识图谱则能优雅地适应。

**可解释性和透明度:**知识图谱 (KG) 的一大优势在于它能够增强 AI 的可解释性。当 AI 系统使用知识图谱时,它可以将其输出追溯到该图谱中的特定事实和路径。这意味着决策可以用人类可理解的术语来解释,参考现实世界的实体和关系,而不是晦涩难懂的模型权重。例如,假设一个 AI 推荐一种治疗方法——如果它由知识图谱支持,它可能会给出这样的结论:“推荐治疗方法 X,因为患者患有病情 Y,并且根据指南 Z,治疗方法 X 适用于 Y,并且有证据表明该方法对具有生物标志物 W 的患者有效”——这些部分(病情、指南、生物标志物)都是知识图谱中通过已知关系连接起来的节点。这种可检查性对于信任至关重要:用户和利益相关者可以审核 AI 是如何得出结论的 。

福布斯科技委员会指出,知识图谱将成为使 AI 系统更易于解释、更易于审核并最终更易于控制的关键要素。此外,知识图谱 (KG) 提供出处信息 (Progression),由于每个事实都可以链接到一个来源或证据节点,人工智能的断言可以追溯到原始数据或参考文献,从而满足受监管行业对信息来源的了解需求。在知识图谱中,出处可能是一条类似于“assertedInStudy”的边,将某个声明链接到某个出版物的 DOI。这在一定程度上增强了人工智能的可信度和可问责性——如果结果错误,人们可以排查是哪部分知识导致了错误,可能是知识图谱中某个过时或有偏见的事实。对于黑盒机器学习来说,这要困难得多。因此,知识图谱通过明确推理链,为值得信赖的人工智能做出了贡献。正如一位消息人士所强调的那样,知识图谱使人工智能的输出对每个人都透明且易于解释,用户无需拥有机器学习博士学位即可理解答案的来源。

**减少对训练数据的需求(小样本学习):**机器学习模型,尤其是深度学习,通常需要大量的带标签数据。然而,知识图谱编码了一般知识,可以帮助模型用更少的样本执行任务。这是因为模型可以依赖知识图谱获取事实或常识性信息,而不是从训练数据中的模式中学习。例如,如果聊天机器人在被问到某个事实时可以直接向知识图谱查询,那么它可能不需要数百个关于该事实的示例。在计算机视觉领域,概念知识图谱可以帮助进行零样本分类:例如,如果一个模型从未见过“霍加狓”,但通过知识图谱知道霍加狓是一种有斑马条纹的有蹄类动物,那么它可以推断出它的某些属性并通过相关特征识别它。在自然语言处理(NLP)领域,通过注入知识图谱事实,而不是寄希望于答案出现在训练文本中,问答等任务的性能得到了显著提升。艾伦·图灵研究所指出,知识图谱减少了对大型带标签数据集的需求,并促进了迁移学习 。本质上,知识图谱提供了一种背景知识,模型无需从数据中学习,从而提高了数据效率。尤其是在医疗、法律等标注数据稀缺的专业领域,拥有专家构建的知识图谱可以弥补这一缺口,使模型能够在有限的微调下运行。这对于规模较小的组织或资源匮乏的环境来说是一个好处,因为在这些环境中,收集大数据是不可行的——他们可以利用现有的知识图谱(例如维基数据或领域本体)来增强人工智能系统。

符号 AI 与统计 AI 的结合:知识图谱提供了一条通往神经符号 AI的途径,将符号推理(精确、基于逻辑)与统计学习(数据驱动、概率)相结合。其优势在于兼顾两全其美:符号系统的稳健性和先验知识,以及统计系统的灵活性和模式识别能力。例如,AI 助手可以使用神经网络将用户的问题解析为意图,然后以符号方式使用知识图谱来实现该意图(通过逻辑检索答案或基于事实进行推理)。这种结合可以减少幻觉,因为知识图谱充当了事实核查或对真相的硬记忆。事实上,最近的研究正在使用知识图谱来缓解大型语言模型 (LLM) 的幻觉,方法是强制模型将其响应的某些部分基于检索到的知识图谱事实。另一方面,机器学习可以通过链接预测或自然语言处理 (NLP) 提取来填补知识图谱中的空白,从而解决知识图谱的不完整性问题。这种协同作用意味着更强大的人工智能:一篇2025年的系统综述指出,知识图谱和大语言模型“对于提升人工智能的理解、推理和语言处理能力至关重要”,并强调了这种相互作用。因此,知识图谱通过提供机器学习所缺乏的——显性知识、一致性和推理能力——来补充机器学习,从而使整个系统更加高效和可信。正因如此,科技公司纷纷投资于这样的系统:知识图谱可以生成候选答案,机器学习模型对其进行排序;或者机器学习生成假设,知识图谱对其进行验证。

**复杂查询支持与推理:**知识图谱 (KG) 能够执行复杂的查询和推理,而这些查询和推理对于关系数据库或纯机器学习 (ML) 来说极其困难。例如,语义推理:从“大张是小张的姐姐”和“小张是张明的父亲”,知识图谱推理器可以通过本体规则自动推断出“大张是张明的阿姨”。这种推断新知识的能力是一个巨大的优势——图谱不仅仅包含给定的事实,还可以扩展到隐含的事实,从而丰富 AI 可用的知识。它还能确保一致性——如果本体论认为没有人可以有两个出生日期,那么知识图谱推理器可以检测到机器学习模型无法察觉的矛盾之处。对于法律或医学等行业而言,这种逻辑一致的推理至关重要。知识图谱允许以正式的方式对约束和业务规则进行编码,确保 AI 决策遵守这些规则。例如,贷款审批人工智能可能会使用知识图谱 (KG) 来确保其不违反监管规则(规则编码在本体或规则库中,任何违反规则的决策路径都会被推理器标记)。因此,知识图谱在人工智能治理中发挥着作用:通过将策略和领域知识注入决策过程,它们有助于避免不可接受的结果(例如,医疗人工智能建议一种明显禁忌的治疗方法——如果知识图谱了解药物相互作用,人工智能就可以避免这种情况)。

**与外部知识和生态系统的互操作性:**许多知识图谱链接到常用词汇和数据集(例如,schema.org、维基数据、地名)。通过利用这些知识图谱,组织的知识图谱可以无缝集成外部知识。例如,电商知识图谱可以将其产品链接到维基数据实体以获取丰富的描述,或链接到谷歌知识图谱进行常见实体识别。这种利用全球知识生态系统(链接开放数据云)的能力是知识图谱的独特之处——将外部数据整合并集成到定制的机器学习模型中要困难得多。这为人工智能应用提供了丰富的上下文,而无需手动收集所有信息。

**值得信赖且负责任的人工智能:**知识图谱对提高人工智能系统的可信度做出了巨大贡献。它们通过以下方式实现:

通过已验证的事实提供准确性,人工智能不需要猜测它不知道的事实,它可以在知识图谱中查找它们。

确保所描述的透明度和可解释性,建立用户信任。

**偏差缓解:**虽然知识图谱可能带有数据偏差,但它们也提供了检测和缓解偏差的方法,通过明确表示人口统计属性和关系,从而能够分析不公平的联系。例如,您可以查询知识图谱,看看某些分类是否与受保护的属性相关,这在神经网络内部比较棘手。研究人员正在研究知识图谱来识别人工智能模型中的偏差,例如,在自然语言处理模型中,用一个包含概念的知识图谱来查找某些性别是否与某些职业相关联,然后消除偏差。

**安全性与合规性:**知识图谱 (KG) 可以编码 AI 系统必须遵循的规则(道德约束、法规遵从性),有效地充当护栏。这是一种主动的方式,可以确保 AI 不会输出或做出违反已知约束的决策。一位 Neo4j 总经理写道,图数据库和知识图谱是增强 AI 解决方案的关键数据元素,能够提高准确性、透明度和可解释性。它们为机器智能“打下基础”,使其能够大规模地模拟人类推理,而不是像一个不受约束的黑匣子一样运作。

增强的机器学习特征和上下文:知识图谱的另一个实用且重要的优势是,它可以作为机器学习的丰富特征库。知识图谱中的实体具有众多属性和关系,这些属性和关系可以转化为预测模型的特征。例如,在推荐机器学习模型中,从知识图谱中获取的特征(例如“hasGenre: Sci-Fi”或“与用户最喜欢的电影分享演员”)可以显著提高模型的准确性,而不仅仅使用观看历史记录。在自然语言处理 (NLP) 中,将基于知识图谱的嵌入或关系(例如 WordNet 关系)融入模型,可以改进词义消歧和阅读理解等任务。因此,知识图谱通过信息丰富的特征补充了数据驱动学习,使学习更加高效且具有泛化能力。

总而言之,知识图谱为人工智能带来了意义和记忆。它们使数据集成更易于处理,查询更强大,人工智能决策更易于理解,并使整个系统更符合人类的知识和价值观。它们并非取代机器学习,而是增强了机器学习:知识图谱提供了知识的画布,机器学习可以在其上进行细致的推理和预测。它们共同作用,使人工智能不仅更智能,而且更安全,更符合人类的期望。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值