从表面到深入:利用知识图谱和大模型整合外部知识以生成跟进问题 - 东南大学&中国移动研究院

摘要

在对话系统中，基于上下文动态生成跟进问题可以帮助用户探索信息并提供更好的用户体验。人类通常能够提出涉及一些普遍生活知识的问题，并展示出更高阶的认知技能。然而，现有方法生成的问题常常局限于浅层的上下文问题，这些问题的启发性不足，与人类水平存在较大差距。本文提出了一种三阶段的外部知识增强的跟进问题生成方法，该方法通过识别上下文主题、在线构建知识图谱（KG），最后将其与大型语言模型结合来生成最终问题。该模型通过引入外部常识知识并执行知识融合操作，生成信息丰富且具有探索性的跟进问题。实验表明，与基线模型相比，我们的方法生成的问题更具信息量，更接近人类提问的水平，同时保持上下文相关性。

引言

提问是人类学习新知识的基本方式。问题生成（QG）是自然语言处理领域的一个重要任务，旨在基于给定文本生成一个问题。好的问题对于对话系统至关重要，因为优秀的系统应该能够通过提问和回应与用户进行良好的互动（李等人，2017年）。随着人工智能技术的快速发展，生成式AI对话系统已广泛应用于许多领域，如教育（罗等人，2024年；阿格拉瓦尔等人，2024年）、医疗保健（阿隆索等人，2024年）和法律咨询（路易斯等人，2024年）。然而，尽管大型

图1：当人类提问时，他们可以依靠相关的常识引入新的思考方向。然而，现有的方法难以实现这一点。

语言模型（LLM）如ChatGPT（OpenAI，2022年）能够对查询作出回应，但它们通常是被动的——仅对用户查询作出回应，而不是主动引导对话或提出自己的问题。为了解决这种在主动性方面的局限，引入了后续提问生成（follow-up QG）的任务（Wang等人，2018年）。

在对话系统中，后续问题通常指的是基于用户输入或系统初始答案生成的延续性问题（Ge等人，2023年）。这类问题与传统提问生成任务产生的问题（Pan等人，2019年）显著不同，后者生成的问题可以使用源文回答。相比之下，后续问题无法在之前的上下文中得到回答。直观上，一个好的后续问题必须满足两个要求，同时保持连贯流畅的形式：（1）确保上下文相关性。问题应该与当前对话主题高度相关，并且不应偏离之前的对话内容；（2）旨在探索新信息，从而引导下一个回应提供更多新颖的信息，并将对话推进到更深层次。

孟等人（2023年）发现，机器在整合背景知识和示例时难以生成相关问题，导致与人类相比在信息量上存在显著差距。此外，人类可以通过高级认知技能（如使用类比和联想）生成后续问题（Davoudi 和 Sadeghi，2015年）。Pan等人（2019年）指出，由于训练数据和预设模型的局限性，机器生成的问题大多仅停留在表面语言相关性层面，缺乏灵活性和创造性。图1展示了一个直观的例子。在讨论眼睛颜色时，人类可以关联上下文中未提及的其他因素，如黑色素和虹膜。然而，由于机器只能依赖上下文信息，生成的虽然与之前的上下文相关，但往往在内容深度和广度上缺乏足够的内容。

本文针对上述局限性提出了一种方法，该方法通过在线构建知识图谱（KG）引入外部知识，并将其与大型语言模型（LLM）结合以生成后续问题。具体来说，我们首先对历史问答信息进行意图识别，以扩展相关背景知识，从对话中提取核心关键词，并构建一个查询来检索最相关的维基百科页面。接下来，我们围绕与该页面对应的实体构建实时知识图谱。然后基于两个维度——节点重要性和相关性——选择与对话最相关的节点，从而确定要引入的外部背景知识。这使得模型能够访问更广泛的知识资源，提高了生成问题的深度和相关性。为了应对模型认知能力有限的挑战，我们设计了一种知识融合操作，通过指导大型语言模型（LLM）基于上下文继续编写先前获取的外部维基百科知识，以进一步提升模型对上下文的理解和认知。总结来说，我们的贡献如下：

● 我们开发了一个三阶段的后续问题生成框架，整合多源知识以生成连贯、清晰且内容丰富的后续问题。

我们设计了一种策略，通过在线构建知识图谱（KG），将常识知识注入到问题生成过程中，使问题更具知识支持性。

● 我们进行了广泛的实验和分析，证明了所提方法在此任务中的优越性。

核心速览

研究背景

研究问题

这篇文章要解决的问题是如何在对话系统中动态生成基于上下文的后续问题，以帮助用户探索信息并提供更好的用户体验。
研究难点

该问题的研究难点包括：现有方法生成的问题通常局限于浅层上下文问题，缺乏启发性和深度；机器生成的问题在信息内容和复杂性上与人类生成的问题存在显著差距。
相关工作

该问题的研究相关工作有：传统的问题生成任务、基于规则的方法、使用预训练语言模型（PLM）的方法以及基于大型语言模型（LLM）的方法。然而，这些方法在生成后续问题时都存在一定的局限性。

研究方法

这篇论文提出了一种三阶段的外部知识增强后续问题生成方法，具体来说，

识别阶段: 首先对历史问答信息进行意图识别，扩展相关背景知识，提取对话中的核心关键词，并构建查询以检索最相关的维基百科页面。
**选择阶段:**使用llmgraph构建以候选页面为中心的知识图谱（KG），并评估这些实体的重要性。
融合阶段：设计了一个文本延续任务，要求模型根据上下文继续编写维基知识，以激发LLM整合其内部世界知识并提供更多常识知识。最后，指导LLM基于已知信息生成后续问题。

实验设计

数据集

使用FOLLOWUPQG数据集进行评估，该数据集来自Reddit子论坛Explain Like I’m Five (ELI5)，包含3790个样本，每个样本由初始问题、答案和后续问题组成。
评估指标

报告了一系列与任务相关的代表性指标，包括主题一致性、互信息（MI）、Distinct-n和Type-Token Ratio（TTR），分别反映相关性、信息量和多样性。
基线模型

选择了多个基线模型进行比较，包括预训练语言模型（如BART、T5、GPT-Neo）和大型语言模型（如gpt-3.5-turbo、LLaMA3、Qwen2、ChatGLM4）。
实现细节

在识别模块中提取的关键词数量为3，选择模块中的随机游走步数为100，使用的嵌入模型为all-MiniLM-L6-v2，β 值设为1.0，所有使用的LLM均为gpt-3.5-turbo。
案例

结果与分析

主题一致性

PLM在主题一致性方面表现优于LLMs，但本文方法通过提取关键上下文信息，生成的问题与输入内容更相关，有效保持了主题一致性。
互信息

本文方法实现了最低的MI，即初始问题对生成后续问题的信息揭示最少。T5也实现了较低的MI，但因其生成的问题包含许多无意义的元认知表达，导致MI较低。
文本多样性

本文方法在文本多样性方面表现最佳，实现了最高的Distinct-1和TTR，表明外部知识的引入有助于生成更多样化的后续问题。
人类评估

本文方法在复杂性和信息量方面显著优于其他模型，特别是在复杂性方面提高了至少18%。用户投票结果显示，本文方法生成的问题最受用户欢迎。

总体结论

本文提出了一种通过知识图谱和大型语言模型引入外部知识来改进后续问题生成的方法。该框架识别关键上下文信息，在线构建知识图谱以获取与上下文相关的背景知识，并最终整合多源知识生成后续问题。广泛的实验表明，本文方法在定量和定性评估中都优于基线模型，生成的信息更丰富，认知复杂度更高，有助于将对话推向更深层次。

论文评价

优点与创新

三阶段框架

提出了一个三阶段的后续问题生成框架，通过识别上下文主题、在线构建知识图谱（KG）以及结合大型语言模型（LLM）来生成连贯、清晰且信息丰富的后续问题。
知识图谱的引入

设计了一种策略，通过在线构建知识图谱将常识知识注入到问题生成过程中，使问题更具知识支持性。
知识融合操作

设计了知识融合操作，通过指导LLM基于上下文继续编写之前获取的外部维基百科知识，增强了模型对上下文的理解和认知水平。
实验验证

进行了广泛的实验和分析，证明了所提方法在生成问题的信息量和认知复杂性方面优于基线模型。
人类评估

通过众包进行人类评估，结果表明所提方法在复杂性和信息量方面显著优于其他模型，更接近人类水平的问题生成。

不足与反思

依赖维基百科

框架依赖于维基百科作为外部知识源，虽然维基百科包含大量信息，但在某些特定垂直领域可能不是最准确的知识来源。
实时构建知识图谱

由于知识图谱需要实时构建，过程较为耗时，可能限制了其在对话系统中的应用。如何平衡知识准确性和工作效率是未来研究的一个重要方向。

关键问题及回答

问题1：本文提出的三阶段外部知识增强后续问题生成方法的具体流程是什么？各阶段的主要任务是什么？

识别阶段

对历史问答信息进行意图识别，扩展相关背景知识，提取对话中的核心关键词，并构建查询以检索最相关的维基百科页面。具体来说，使用大型语言模型（LLM）从问答对中提取一个主题和n个关键词，然后通过迭代检索维基百科页面，最终得到与上下文最相关的页面。
选择阶段

使用llmgraph构建以候选页面为中心的知识图谱（KG），并评估这些实体的重要性。具体步骤包括：使用PageRank分析图结构，计算每个节点的重要性得分；通过随机游走记录节点的访问次数；结合节点的重要性和语义相似性，选择最相关的实体作为外部知识。
融合阶段

设计了一个文本延续任务，要求模型根据上下文继续编写维基知识，以激发LLM整合其内部世界知识并提供更多常识知识。最后，指导LLM基于已知信息生成后续问题。这一阶段通过提示学习，确保生成的问题既具有上下文相关性，又融入了外部知识。

问题2：在实验中，本文方法在哪些评估指标上表现优于基线模型？这些指标分别反映了什么？

互信息（MI）

本文方法实现了最低的MI，即初始问题对生成后续问题的信息揭示最少。这表明生成的问题包含了更多的新信息，而不是简单地重复或重述原始上下文。
文本多样性

本文方法在文本多样性方面表现最佳，实现了最高的Distinct-1和TTR。Distinct-1表示生成问题的唯一性，TTR表示生成问题的类型-标记比率，这两个指标都反映了生成问题的多样性。
人类评估

在复杂性和信息量方面，本文方法显著优于其他模型，特别是在复杂性方面提高了至少18%。用户投票结果显示，本文方法生成的问题最受用户欢迎，表明其生成的问题在认知复杂度和创造性上更接近人类水平。

这些指标反映了本文方法在生成后续问题时的优势，不仅在信息量和多样性上有显著提升，还在认知复杂度和用户满意度上有显著提高。

问题3：本文在实验中使用了哪些基线模型？这些基线模型在后续问题生成任务中的表现如何？

预训练语言模型（PLM）

包括BART、T5和GPT-Neo。这些模型在主题一致性方面表现优于大型语言模型（LLMs），因为它们参数较少，容易过拟合训练数据，倾向于重述输入上下文。然而，它们在生成问题的信息量和多样性方面表现较差。
大型语言模型（LLM）

包括gpt-3.5-turbo、LLaMA3、Qwen2和ChatGLM4。这些模型在生成问题的多样性和某些情况下的一致性方面表现较好，但由于其较大的参数规模和训练数据，容易生成包含大量无意义元认知表达的问题。

总体而言，基线模型在后续问题生成任务中存在信息量和多样性不足的问题，而本文方法通过引入外部知识和知识图谱，显著提升了生成问题的信息量和多样性，同时在认知复杂度和用户满意度上也有显著提升。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述