LinKQ可视化:大模型与图谱双轮驱动下的可信知识发现工作流之旅

img

摘要

知识图谱(KGs)是强大的数据结构,但即便对于专家用户来说,有效探索它们依然困难。大型语言模型(LLMs)越来越多地被用来弥补这一差距,然而,关于LLMs与KGs结合使用如何塑造用户信任、探索策略或下游决策的实证研究还很少,这为基于LLM的KG可视化分析系统的关键设计挑战。为了研究这些效应,我们开发了LinkQ,一个利用大型语言模型将自然语言问题转换为结构化查询的KG探索系统。我们与KG专家合作设计了五种视觉机制,帮助用户评估KG查询和LLM响应的准确性:一个LLM-KG状态图,说明LinkQ处于探索流程的哪个阶段;一个显示生成查询及其LLM解释的查询编辑器;一个实体-关系ID表,展示提取的KG实体及其带有语义描述的属性;一个描述在KG中遍历路径的查询结构图;以及一个交互式的查询结果图形化展示。通过对14位从业者的定性评估,我们发现,由于LinkQ的“有用”可视化效果,即使用户的LLM回答有误,用户也倾向于过度信任LinkQ的输出。根据他们对KGs和LLMs的先验熟悉程度,用户展现出不同的工作流,这挑战了这些系统是“一刀切”的假设,尽管它们通常被设计得好像适用于所有情况。我们的研究结果突显了对大型语言模型辅助数据分析工具错误信任的风险,以及需要进一步调查可视化作为缓解技术的角色。

img

索引词 - LINKQ,自然语言界面、知识图谱、大型语言模型、查询构建器、可信设计、可解释人工智能

核心速览

研究背景

  1. 研究问题

    :这篇文章研究了在大语言模型(LLMs)辅助下的知识图谱(KG)系统中,可视化对用户信任、探索策略和工作流程的影响。具体来说,研究如何通过可视化手段帮助用户评估LLMs生成的查询的准确性和可靠性。

  2. 研究难点

    :该问题的研究难点包括:用户可能会过度信任LLMs的输出,即使这些输出是错误的;用户的工作流程和探索策略会根据他们对KG和LLMs的熟悉程度而有所不同,这使得设计一个适用于所有人的系统变得困难。

  3. 相关工作

    :该问题的研究相关工作包括:使用LLMs来更新KG数据、解决实体歧义、促进数据探索等。然而,现有研究中缺乏对LLMs辅助KG系统对用户工作流程下游影响的实证研究。

研究方法

这篇论文提出了LinkQ系统,用于解决LLMs辅助KG系统中可视化对用户信任、探索策略和工作流程影响的问题。具体来说,

  1. LinkQ系统设计

    :LinkQ系统通过与KG专家合作,设计了五种可视化机制来帮助用户评估KG查询和LLMs响应的准确性。这些机制包括:

    • LLM-KG状态图:展示探索管道的当前阶段。

      img

    • 查询编辑器:显示生成的查询及其LLMs解释。

    • 实体-关系ID表:展示提取的KG实体和关系及其语义描述。

    • 查询结构图:以图形形式展示查询路径。

    • 查询结果交互式图形可视化:以表格形式展示查询结果。

  2. 迭代查询构建

    :LinkQ采用链式提示方法,通过多轮对话引导LLMs澄清用户的问题,并在KG中查找相关数据以生成查询。

  3. 错误处理和解释

    :系统通过查询预览和上下文解释来支持用户验证,并提供多模态输出以便于验证和探索。

实验设计

  1. 数据收集

    实验使用了两个KG:通用维基数据KG和特定领域的BRON网络安全KG。参与者来自一个专业网络,具有不同程度的KG和LLMs经验。

  2. 实验设计

    参与者完成了包括目标问答任务和开放式任务在内的一系列任务。目标问答任务选择了LinkQ在定量评估中表现较好和较差的问题类型。开放式任务要求参与者生成报告,描述KG中的特定信息。

  3. 样本选择

    参与者分为KG专家和KG非专家,分别具有不同程度的KG和LLMs经验。

  4. 参数配置

    实验中使用了两个KG:Wikidata KG和BRON网络安全KG。参与者有足够的时间完成任务,并且可以在实体关系表中查看查询的结构。

结果与分析

  1. 定量评估

    LinkQ在每种问题类型上的准确性均优于GPT-4,特别是在比较问题和是非问题上表现最佳,而在交叉问题上表现最差。

  2. 定性分析

    • 用户对LinkQ的可视化设计给予了高度评价,认为其有助于理解LLMs的工作流程。

    • 尽管如此,用户有时会过度信任LLMs的输出,尤其是在查询结构图显示合理时。

    • 用户根据其对KG和LLMs的熟悉程度采取了不同的工作流程和探索策略。KG专家会仔细检查查询结构,而非专家则更依赖LLM的解释。

      img

总体结论

这篇论文提出了LinkQ系统,通过可视化手段帮助用户评估LLMs生成的查询的准确性和可靠性。尽管用户对LinkQ的可视化设计给予了高度评价,但研究也发现用户有时会过度信任LLMs的输出。未来的研究可以进一步探讨如何在增强用户对LLMs输出的信任的同时,减少过度信任的风险。此外,研究还表明,LLMs辅助的KG系统应根据用户的经验和知识水平进行定制,以避免一刀切的设计。

论文评价

优点与创新

  1. LinkQ系统的开发

    LinkQ是一个开源的、人机协作的知识图谱问答系统,利用大型语言模型(LLM)生成和解释知识图谱查询。

  2. 可视化设计

    LinkQ的用户界面包含多种可视化组件,如LLM-KG状态图、查询编辑器、实体-关系表、查询结构图和结果摘要图,帮助用户评估LLM生成的查询的准确性。

  3. 用户研究

    通过定性研究,探讨了可视化对用户工作流程、探索策略和下游分析的影响,揭示了用户在信任LLM输出时的行为模式。

  4. 迭代查询构建

    LinkQ支持用户通过多轮对话迭代地细化自然语言问题,生成精确的知识图谱查询。

  5. 错误提示

    系统通过高亮显示潜在错误和歧义来提示用户,减少了对LLM输出的过度信任。

不足与反思

  1. 过度信任问题

    尽管LinkQ的设计初衷是帮助用户理解LLM的工作流程,但研究发现用户有时会过度信任LLM的输出,尤其是在可视化设计“直观”的情况下。

  2. 用户经验差异

    用户的探索策略和工作流程显著不同,取决于他们对知识图谱和LLM的熟悉程度。这表明LLM辅助的知识图谱系统不应设计为“一刀切”的解决方案。

  3. 信任和可解释性

    在某些情况下,用户在不确定正确答案时,会隐式地信任LinkQ的响应,有时甚至会合理化错误的答案。LinkQ需要提供更透明的响应,或者在查询返回空结果或遇到SPARQL限制时,明确指出问题所在。

  4. 上下文和语义丰富性

    LinkQ的有效性有时受限于底层知识图谱的语义描述能力。用户希望LinkQ能提供更多的上下文信息和丰富的语义细节,例如在查询BRON返回的实体仅通过标识符表示时,用户希望LinkQ能知道应该包括这些实体的描述。

  5. 查询细化和LLM灵活性

    有几次用户对LLM的行为表示不满,认为其表现不够智能,例如在后续问题中无法基于先前生成的查询进行增量改进,而是从头开始构建新查询。

  6. 性能和用户控制集成

    一些复杂问题的查询执行时间较长,用户建议LinkQ可以通过集成“性能提示”来优化查询,或者提供更好的控制机制,如过滤、修改或重置查询参数。

关键问题及回答

问题1:LinkQ系统是如何通过可视化机制帮助用户评估LLMs生成查询的准确性的?

LinkQ系统设计了多种可视化机制来帮助用户评估LLMs生成查询的准确性。具体包括以下几种:

  1. LLM-KG状态图

    展示了系统在不同阶段的操作状态,如问题澄清、KG探索、查询生成和结果总结。这有助于用户理解LLMs的工作流程。

  2. 查询编辑器

    显示生成的查询及其LLM的解释,帮助用户理解查询的具体内容和生成过程。

  3. 实体-关系ID表

    列出查询中提取的实体和关系及其语义描述,帮助用户快速评估查询的准确性。

  4. 查询结构图

    以图形方式展示查询的结构,帮助用户理解查询的逻辑和潜在的错误。

  5. 交互式图可视化

    对查询结果进行可视化展示,支持用户进行交叉验证和探索。

这些可视化机制共同作用,使用户能够更直观地理解LLMs的查询过程和结果,从而提高对查询准确性的评估能力。

问题2:在LinkQ系统的使用过程中,用户对LLMs输出的信任度如何变化?

尽管LinkQ系统提高了用户对LLMs输出的信任度,但研究发现用户有时会过度信任这些输出,即使这些输出是错误的。具体表现如下:

  1. 过度信任现象

    用户倾向于相信系统提供的结构化查询可视化和LLM的解释,即使结果不正确。例如,当查询结构图与用户的预期一致时,用户可能会认为查询结果是正确的。

  2. 外部归因

    当查询结果错误时,一些用户会通过外部因素合理化错误答案,而不是直接质疑系统。

  3. 信任度与经验相关

    KG专家由于具有丰富的经验和专业知识,更容易识别查询中的错误,而KG非专家则更容易过度信任系统输出。

这些结果表明,虽然可视化设计有助于提高用户对LLMs的信任度,但也需要解决过度信任的问题,以提高系统的可靠性和用户的使用体验。

问题3:LinkQ系统在设计和实现过程中遇到了哪些挑战?

  1. 用户信任与误差的平衡

    如何在提供透明度和解释能力的同时,避免用户过度信任系统输出是一个挑战。

  2. 用户经验差异

    用户对KG和LLMs的熟悉程度不同,导致他们的工作流程和探索策略也不同。设计一个适用于所有用户的系统是一个挑战。

  3. 系统性能与用户体验

    在查询生成和执行过程中,如何优化系统性能并提高用户体验也是一个重要的挑战。

  4. 多模态结果展示

    如何有效地展示查询结果的多种格式(如文本摘要、表格视图和图形可视化),以便用户进行交叉验证和探索。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值