文献翻译与阅读《DALK: Dynamic Co-Augmentation of LLMs and KG to answer Alzheimer’s Disease Questions with S》

最新推荐文章于 2025-06-11 20:56:25 发布

啾啾啾666

最新推荐文章于 2025-06-11 20:56:25 发布

阅读量930

点赞数 15

分类专栏： LLM 知识图谱文章标签：知识图谱 chatgpt gpt-3

本文链接：https://blog.youkuaiyun.com/weixin_42052249/article/details/140419343

版权

LLM 同时被 2 个专栏收录

4 篇文章

订阅专栏

知识图谱

2 篇文章

订阅专栏

arXiv'24

论文原文下载地址：论文原文

1 引言

1.1 Motivation：

尽管科学文献和专门的生物医学数据库可以提供丰富的AD（阿尔茨海默病）知识，由于信息量巨大，人工审查相关信息不现实。
虽然 LLMs 在许多一般任务中表现出了良好的性能，但最近的研究却揭示了 LLMs 在长尾知识和特定领域知识方面的局限性，从而极大地阻碍了它们在 AD 等垂直领域的适应性。
为解决这一问题，最常见的策略是检索增强生成（RAG）和特定领域 LLMs 训练。但会遇到以下问题：
1. 数据质量：科学文献构成了 AD 领域最大的公开可用语料库。然而，科学文献的密集性和信息过载性与自动检索方法相结合，可能会导致检索到不相关和有噪声的信息。以往的研究表明，嘈杂和不相关的语料会严重影响 LLM 的性能
2. 效率和规模问题：AD知识正随着科学进步以惊人的速度和规模迅速发展。然而，重新训练特定领域的 LLM 或更新其中的某些知识需要大量的计算资源。这一效率问题也会限制特定领域LLM的大小，从而影响其性能。

1.2 本文提出DALK（LLM 和 KG 的动态协同增强框架）：

解决数据质量难题：利用 LLM 从 AD 相关科学文献中提取更多结构化和更准确的知识，并构建一个不断演化的 AD 特定知识图谱 (KG)。构建方法：
1. 成对构建（Carta等人，2023年；Wadhwa等人，2023年）
2. 生成构建（Han等人，2023年；Bi等人，2024年）
进一步解决数据质量和效率问题：利用一种从粗到细的抽样方法和一种新颖的自我感知知识检索方法，从 KG 中选择适当的知识来增强 LLM 的推理能力。

1.3 评估部分：

从现有的普通医疗质量保证数据集中推导出了AD问题解答（ADQA）基准
1. 包含数百万个经策划的关键词列表和 LLM 自采样过滤的样本。
在ADQA基准上进行的实验结果证明了 DALK 的有效性。

DALK有助于：在大规模和基于 API 的语言模型中的应用（OpenAI，2022 年）。

代码和数据：https://github.com/David-Li0406/DALK

2 方法框架

2.1 LLM4KG

语料库收集：

墨尔本大学的Colin Masters教授发现淀粉样蛋白是导致注意力缺失症的潜在原因，该语料库基于他广泛的代表性 AD 相关论文的书目，包括从 1977 年到 2021 年超过 16K 篇 PMID（PubMed ID）索引文章。在本文的研究中，本文重点研究了 2011 年以来的论文，这些论文反映了该领域的最新知识，共获得了 9,764 篇文章。

实体识别：

为了在适当的粒度水平上识别AD知识，用由NCBI开发并持续维护的PubTator Central（PTC）（Wei等人，2013年）从语料库中提取相关实体。

PTC ：一种广泛使用的工具，可为 PubMed 摘要和全文文章提供最先进的生物医学概念注释，它支持六种生物概念类型，包括基因、疾病、化学物质、突变、物种和细胞系。将 PTC 应用于所有 AD 论文的摘要，并获得相关命名实体，这些实体将作为知识图谱中的节点。

关系提取：

目前使用 LLM 的方法分为两大类（图 2）：

(a).成对关系提取：旨在促使 LLMs 描述一段文本中任意两个实体之间的关系

(b).生成关系提取：LLM 直接输出所有相关实体对及其相应关系

将这两种关系提取方法都纳入了知识图谱增强过程，以便对它们进行全面比较。将这两种方法得出的知识图谱分别称为 KGpair 和 KGgen

3.1 KG4LLM

粗粒度知识样本：

给定一个问题查询 Q

构建一个提示，要求 LLM 从Q中提取所有特定领域的实体 E = {e1, e2, ...}。
实体链接（基于相似性），将 E 中的所有实体连接到知识图谱 G 中的实体结构。（参考Wen 等人（2023 年）提出的方法，）
1. 将 G 和 E 中的所有实体编码为密集嵌入，分别记为 HG 和 HE（利用语义相似性模型（Reimers 和 Gurevych，2019 年））。
2. 在 E 中的每个实体与其在 G 中的最近邻实体之间建立联系（利用余弦相似性）。
建立证据子图以促进 LLMs 的推理过程，（ Wen 等人，2023 年），并考虑在 AD-KG 中进行以下两种探索：
1. 基于路径的探索。从 G 中提取一个子图，以包含 EG 中的所有实体。
2. 基于邻域的探索。努力增加 GQ 中与查询相关的证据。
在得到两个子图之后进行后处理，进一步剪除子图中的冗余信息，并促使 LLM 描述每个子图的结构。

自我意识知识检索：

用上述方法采样的粗粒度知识：

缺点：仍然包含冗余和不相关的信息。
挑战：
1. 是自动构建KG时经常遇到的难题。
2. 最近研究都证明 LLMs 会受到此类噪声信息的影响。
本文：提出了一种自感知知识检索方法，利用 LLMs 的排序能力来过滤噪声信息。
1. 总体思路：直接提示 LLM 对采样知识进行重新排序，并只检索前 k 个三元组，以便在最后一轮推理中提供给自己。
2. 过程：
  1. 给定：问题 Q、基于路径或基于邻居的子图 GQ
  2. 通过填写预定义模板来创建提示语
  3. 输入提示语，提示 LLM 获取自我检索的知识
  4. 将问题 Q 和细粒度知识 Gself Q 提供给 LLM 进行推理，并分两步得到预测答案 a