
文章摘要
本文通过一起真实的法律案例揭示了大语言模型的根本缺陷:律师因使用ChatGPT生成虚假判例而受到严厉处罚。文章深入探讨了为何LLM在关键应用中会失败,以及如何通过知识图谱(KG)与LLM的混合架构构建可信赖的智能顾问系统,为专业领域的AI应用提供可验证、可解释、可持续更新的知识基础。
一、一个代价惨痛的教训:当律师遇见ChatGPT
"施瓦茨先生,我审阅了您的反对意见书,"联邦法官P. Kevin Castel开口道,语调平稳但尖锐,“您引用了六个案例来支持您客户的立场。我想讨论一下Varghese诉中国南方航空公司案。”

PDF原文 - https://t.zsxq.com/jf1eY

拥有数十年执业经验的律师Steven Schwartz在椅子上坐直了身体。“是的,法官阁下。那是2019年第十一巡回法院的判决,直接支持——”
"我很难找到这个案例,"法官打断道,“您提供的引用——925 F.3d 1339——在我的书记员检查的任何数据库中都找不到。您能否向法庭提供完整的判决意见?”
施瓦茨感到第一丝不安。"当然,法官阁下。我会立即提交。"回到办公室后,施瓦茨回到他的信息源。他在ChatGPT中输入:"Varghese诉中国南方航空公司案,925 F.3d 1339(第11巡回法院2019)是真实案例吗?"回复信心十足地说:“是的,Varghese诉中国南方航空公司案,925 F.3d 1339是真实案例。可以在LexisNexis和Westlaw等权威法律数据库中找到。”
得到保证后,施瓦茨要求ChatGPT提供更多关于该案的详细信息。AI顺从地生成了看似来自判决意见的摘录,包含令人信服的法律推理和格式正确的引用。他将这些提交给了法庭。
三周后
Castel法官的命令措辞严厉:“法庭面临前所未有的情况。提交的六个案例似乎都是伪造的司法判决,带有伪造的引文和伪造的内部引用。”
所有六个案例都是完全虚构的。它们从未被任何法院判决过。它们根本不存在。
在随后的宣誓书中,施瓦茨承认他"以前从未使用ChatGPT进行法律研究,因此不知道其内容可能是虚假的"。他告诉法庭,他认为ChatGPT"就像一个超级搜索引擎"——这是一个看似合理但灾难性错误的假设,如今数百万跨行业部署LLM的专业人士都在犯同样的错误。
二、问题根源:LLM的架构性缺陷
2.1 根本性误解
施瓦茨案揭示了对LLM能力和局限性的根本性误解。询问ChatGPT"什么是泰姬陵?"和询问"哪些法律先例支持我的客户在航空伤害案中的立场?"之间存在天壤之别。
第一个查询需要通用知识——广泛可用且相对稳定的信息。第二个查询需要访问特定的、权威的、不断演变的法律判决语料库,这些判决是几个世纪法理学实践积累的结果,其中精确性至关重要,每个引用都必须可验证。
2.2 技术局限性
我们知道LLM会产生幻觉。这不是新闻,已经投入了大量努力来缓解这个问题。从人类反馈中强化学习(RLHF)、改进的训练数据管理和置信度评分等技术都有所帮助。但背景环境至关重要。LLM在被问及一般性主题时可能表现出色,但在需要权威来源的特定领域查询时却会灾难性地失败。
检索增强生成(RAG)方法——将文档拆分成块并按需检索相关段落——可以部分解决这个问题。当您有文本内容并需要基于该内容的具体答案时,RAG效果相当不错。但当您的知识库是多年积累实践的结果时——法律先例、医疗协议、金融法规、工程标准——简单的基于块的检索无法提供所需的精确性和上下文理解。您不仅需要知道一个案例说了什么,还需要知道它与其他案例的关系、何时适用、覆盖哪个司法管辖区,以及后续判决是否修改了其地位。
2.3 更深层的架构挑战
然而,幻觉和检索限制只代表问题的一个维度。架构挑战更深层次:
- 知识不透明:信息存储为数十亿个无法检查或解释的参数。您无法审计模型"知道"什么或验证其来源。
- 难以更新:整合新信息——新的法律先例、更新的法规或修订的医疗指南——需要昂贵的重新训练或复杂的微调。
- 缺乏领域基础:通用LLM缺少专家知识、业务规则和监管要求,这些决定了输出在专业环境中是否真正有用。
- 无审计追踪:无法追踪它们如何得出结论,使其不适合需要问责制的环境。
这些不是小的技术问题。它们是决定AI项目成败的架构问题。根据Gartner的数据,到2027年,超过40%的代理AI项目将因领域知识和ROI对齐不佳而被取消。原因是一致的:组织正在部署强大的LLM技术,却没有使其值得信赖所需的知识基础设施。
施瓦茨案清楚地表明:除非LLM能够正确访问真实、一致、可验证的数据,否则它们无法作为关键应用的可靠问答工具。而且没有捷径。简单地通过RAG向LLM投入更多文档,或希望更好的提示能够弥补,都错过了根本问题。
知识必须以可管理、始终最新、妥善维护的方式组织,更关键的是——结构化以支持应用所需的推理类型。 真正的问题不是LLM是否足够强大,而是知识应该具有什么结构,以及我们如何创建围绕它的流程来正确构建、维护和访问它?
这就是知识图谱登场的地方。
三、知识图谱:AI的知识基础设施
3.1 什么是知识图谱?
知识图谱不仅仅是一个数据库。正如《知识图谱与LLM实战》一书中定义的:
知识图谱是一个不断演化的图数据结构,由一组类型化实体、它们的属性和有意义的命名关系组成。为特定领域构建,它整合结构化和非结构化数据,为人类和机器创造知识。

[知识图谱的四大支柱示意图]
因此,知识图谱建立在四个基础支柱之上:
- 演化性(Evolution):不断更新的信息,无需结构性改造即可无缝整合新数据
- 语义性(Semantics):通过类型化实体和显式关系进行有意义的数据表示,捕获领域知识
- 集成性(Integration):灵活地协调来自多个来源的结构化和非结构化数据
- 学习性(Learning):支持人类和机器的查询、可视化和推理
至关重要的是,知识图谱的知识是可审计和可解释的——用户可以准确追踪信息来源并根据权威来源进行验证。
3.2 智能顾问系统 vs 自主系统
在探讨如何结合这些技术之前,我们需要理解智能系统部署方式的一个关键区别。
并非所有智能系统都是平等的。智能自主系统独立行动,代表用户做出决策并执行操作,人类输入最少——想想必须在没有人类干预的情况下实时运行的自动驾驶汽车。
相比之下,智能顾问系统(IAS)旨在支持而非取代人类判断。正如《知识图谱与LLM实战》中定义的:
智能顾问系统的角色是提供信息和建议。关键特性包括决策支持、上下文感知和用户交互。这些系统设计为易于交互,允许用户探索选项、提出问题并接收详细解释以辅助他们的决策。

[a) 智能自主系统 b) 智能顾问系统对比图]
对于关键应用——法律研究、医疗诊断、财务分析、合规监控——增强而非取代人类专业知识的顾问系统不仅是首选,而且是必需的。架构必须强化而非绕过把关责任。
四、混合方法:LLM + 知识图谱的完美结合
4.1 协同增效的架构
当我们结合知识图谱和LLM时,我们创建的系统整体超过部分之和:
知识图谱提供基础:
- 结构化、经过验证的知识,作为事实依据
- 领域规则和约束的显式表示
- 显示结论如何得出的审计追踪
- 无需模型重新训练的动态更新
LLM提供接口:
- 自然语言查询处理
- 从非结构化数据自动提取实体以构建知识图谱
- 将复杂的图查询转换为易于理解的语言
- 将结果总结为人类可读的报告

[LLM和知识图谱如何互补示意图]
4.2 如何避免施瓦茨式灾难
考虑这个混合系统如何能够防止施瓦茨的灾难。一个混合系统会:
- 使用LLM处理自然语言查询
- 查询知识图谱以获取带有真实引用和来源的经过验证的信息
- 呈现带有上下文的结果:“从权威数据库找到12个带引用的已验证案例”
- 提供实际来源的验证链接
- 标记不确定性:“未找到与此确切模式匹配的案例。请考虑这些替代方案。”
最关键的是:当被问及"这个案例是真实的吗?"时,系统会回答:“此案例引用无法在权威数据库中验证。状态:未经验证。”

[使用和不使用LLM构建知识图谱,以及LLM支持查询和检索的流程图]
4.3 全面的价值主张
来自行业领导者的研究一致表明,混合系统解决了导致AI项目失败的核心挑战:
- 缓解幻觉:通过将LLM响应建立在可验证的知识图谱策划事实上来缓解幻觉。
- 保持知识最新:通过动态知识图谱更新保持知识最新。LLM通过不断演化的知识图谱访问最新信息,无需重新训练。
- 内置可解释性:通过透明的信息路径实现内置可解释性。
- 提高特定领域准确性:因为知识图谱编码了通用LLM缺乏的专家知识、法规和关系。
五、构建值得信赖的AI系统
5.1 专业责任的核心
施瓦茨案的法官指出,“技术进步是司空见惯的,使用可靠的人工智能工具进行辅助本身并没有什么不当”,但强调"现有规则要求律师发挥把关作用,以确保其提交文件的准确性"。
这一原则具有普遍适用性:每个部署AI的专业人士都有把关责任。 问题在于您的AI系统架构是支持还是破坏这一责任。
5.2 关键应用的未来
关键应用中AI的未来——跨越每个行业——取决于构建智能顾问系统,将知识图谱的结构化知识和可解释性与LLM的自然语言理解和模式识别相结合。这不是在技术之间做选择,而是理解仅靠LLM缺乏值得信赖的AI所需的基础。知识图谱提供了这一基础。
当组织在没有这种基础的情况下部署LLM时,项目会失败——不是因为技术不够强大,而是因为没有基础的力量是不可靠的。当正确完成时——结合互补优势并补偿彼此弱点的技术——我们创建的系统能够真正增强人类智能。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

2万+

被折叠的 条评论
为什么被折叠?



