摘要
本文介绍了KAG-Thinker,它将知识增强生成(KAG)升级为一个由专用轻量级大型语言模型(LLM)驱动的多轮互动式思考和深度推理框架。我们的方法构建了一个结构化的思考过程,用于解决复杂问题,增强了在特定领域知识库(KBs)上的问答(Q&A)任务中推理过程的逻辑连贯性和上下文一致性。遵循KAG的逻辑形式引导检索和推理技术路线,该框架首先通过广度分解将复杂问题分解为可独立解决的子问题(也称为逻辑形式)。每个这样的逻辑形式以自然语言和逻辑函数的两种等价形式表示,随后被归类为知识检索或推理分析任务。这些任务之间的依赖性和参数传递通过逻辑函数接口明确建模。在解决过程中,检索功能执行检索任务。它检索指定知识单元的一跳结构化和非结构化信息。而数学和推导功能则用于执行推理分析任务。其次,值得注意的是,在知识检索子问题任务中,大型语言模型和外部知识源被视为等效的知识库。我们使用知识边界模块,通过自我调节机制(如信心校准和反思性推理)来确定最佳信息源,并使用深度解决模块来增强知识获取的全面性。最后,我们没有采用强化学习,而是通过多轮交互式思维和深度推理的监督微调来使模型与我们的结构化推理范式保持一致,从而避免过度反思。这一点得到了数据评估框架和迭代语料库合成的支持,它们有助于生成详细的推理轨迹。实验结果显示,我们的模型在七个基准数据集上的表现超越了最先进的模型,平均提升了4.1%。此外,KAG-Thinker不仅增强了KAG框架的推理稳定性,而且其性能与参数是其10倍的模型相当。我们还通过与特定领域知识集成的医疗问答系统进一步证明了其实际有效性。我们使用相同的方法,基于合成医学语料库训练了参数为140亿(14b)的KAG-Med-Thinker模型,并验证了它们在专业应用中的适用性。
KAG-Thinker代码:https://github.com/OpenSPG/KAG-Thinker
KAG框架代码:https://github.com/OpenSPG/KAG
论文地址: https://arxiv.org/abs/2506.17728
国内首个专业领域知识增强服务框架 KAG 技术报告,助力大模型落地垂直领域
核心速览
研究背景
-
研究问题
:这篇文章要解决的问题是如何在大型语言模型(LLMs)中实现多轮交互式思考和深度推理,以解决复杂的多跳问题。
-
研究难点
:该问题的研究难点包括:LLMs在处理多跳问题时,尤其是需要外部检索最新信息的问题时,存在一定的局限性;现有的方法在逻辑一致性、稳定性或可靠性方面存在不足,特别是在高风险或敏感领域如金融、医学和法律应用中。
-
相关工作
:该问题的研究相关工作有:检索增强生成(RAG)方法,如Lewis等人(2020)、Trivedi等人(2023)和Li等人(2025a);模仿人类认知过程的“慢思考”方法,如Pan等人(2025)、Jin等人(2025b)和Sun等人(2025)。这些方法虽然在一定程度上提高了LLMs的利用效率,但并未提供解决复杂多跳问题的逐步方法。
研究方法
这篇论文提出了KAG-Thinker,用于升级KAG框架以实现多轮交互式思考和深度推理。具体来说,
-
逻辑形式分解:首先,通过广度分解将复杂问题分解为多个独立的子问题(也称为逻辑形式),每个逻辑形式可以用自然语言和逻辑函数两种等价形式表示,并分类为知识检索或推理分析任务。依赖关系和参数传递通过逻辑函数接口显式建模。
-
知识边界确定:在知识检索子任务中,LLMs和外部知识源被视为等效的知识库。使用知识边界模块通过自我调节机制(如置信度校准和反思推理)确定最佳知识源,并使用深度求解模块增强知识获取的全面性。
-
聚焦和推理:当LLMs的内在知识不足以解决某个子问题时,需要进行外部信息检索。聚焦和推理模块用于评估检索结果的可信度并过滤掉低质量或无关内容,逐步培养对问题的全面理解。
-
监督微调:采用监督微调而不是强化学习,以对齐模型与结构化推理范式,避免过度反射。数据评估框架和迭代语料库合成有助于生成详细的推理轨迹。
公式解释:
- 逻辑形式分解:将复杂问题分解为多个独立的子问题,每个子问题对应一个逻辑形式,逻辑形式包括自然语言部分和逻辑函数部分。
- 知识边界确定:通过置信度评估和似然评估确定子问题是否需要外部检索
实验设计
-
数据集
:实验在7个广泛使用的数据集上进行,包括单跳问答(NQ、TriviaQA、PopQA)和多跳问答(HotpotQA、2WikiMultiHopQA、Musique、Bamboogle)数据集。
-
评估指标
:主要使用EM(Exact Match)指标进行评估,同时使用F1指标作为补充,特别是在评估自由形式文本输出时。
-
比较方法
:包括非检索范式(Naive Generation、Chain-of-Thought)、检索增强架构(Naive RAG、IRCoT、Search-o1)和强化学习模型(R1-Gen、Search-R1、ZeroSearch、StepSearch)。
-
实现细节
:使用Qwen2.5-7B-Instruct作为基础模型,E5-base-v2作为检索器,基于2018年12月的维基百科数据作为知识库。所有语料库索引和嵌入过程均使用FlashRAG进行预处理。
结果与分析
-
整体性能:与基线方法相比,KAG-Thinker在七个数据集上的平均EM得分提高了4.1%。在单跳数据集上平均提高了4.5%,在多跳数据集上平均提高了3.9%。
-
稳定性分析:KAG-Thinker在HotpotQA、2Wiki和Musique数据集上的稳定性显著提高,平均分别提高了17.9%和7.6%。
- 医疗领域应用:在MedQA数据集上,KAG-Med-Thinker在不同基础模型上的表现均优于现有方法,特别是在DeepSeek-R1-Distill-Qwen-14B模型上,KAG-Med-Thinker的平均EM得分提高了4.41%。
总体结论
KAG-Thinker通过模拟人类认知过程,将复杂查询分解为逻辑互联的子问题,实现了增量问题解决的同时保持结构完整性。该框架不仅提高了推理的稳定性和逻辑一致性,还在医疗领域验证了其实际有效性。KAG-Thinker展示了在高风险领域的广泛应用潜力,通过集成领域特定知识,保持了逻辑严谨性。
论文评价
优点与创新
-
结构化思维过程
:KAG-Thinker通过逻辑形式将复杂问题分解为独立可解的子问题,构建了结构化的思维过程,增强了问答任务中推理过程的逻辑连贯性和上下文一致性。
-
知识边界确定模块
:设计了知识边界确定模块,通过自我调节机制(如置信度校准和反思性推理)确定最佳知识源,并使用深度解决模块增强知识获取的全面性。
-
聚焦与推理模块
:在需要外部信息检索时,使用聚焦与推理模块提取核心相关信息,减少检索内容的噪声。
-
监督微调
:采用监督微调而非强化学习,避免了过度反射,通过数据评估框架和迭代语料库合成生成详细的推理轨迹。
-
多跳问答任务
:在七个基准数据集上优于最先进的模型,平均提升了4.1%,并且在单跳和多跳问答任务上均表现出色。
-
医疗领域应用
:通过集成特定领域的知识,展示了KAG-Thinker在实际应用中的有效性,特别是在医疗问答系统中。
不足与反思
-
复杂问题的处理
:尽管KAG-Thinker在处理复杂问题时表现出色,但在处理更复杂的、需要多跳推理的问题时,仍存在一定的局限性。
-
外部知识的质量
:外部知识库的噪声和不准确性可能影响模型的推理结果,未来需要进一步改进知识库的质量和可靠性。
-
模型复杂度
:虽然KAG-Thinker在性能上有所提升,但其参数数量增加了10倍,未来的研究可以进一步优化模型复杂度和推理效率。
-
长文本处理
:在处理长文本时,模型可能会遇到上下文漂移和信息过载的问题,需要进一步研究和优化长文本处理策略。
关键问题及回答
问题1:KAG-Thinker如何通过逻辑形式分解来处理复杂的多跳问题?
KAG-Thinker通过逻辑形式分解将复杂问题分解为多个独立的子问题(也称为逻辑形式)。每个逻辑形式可以用自然语言和逻辑函数两种等价形式表示,并分类为知识检索或推理分析任务。具体步骤如下:
-
广度分解
:将复杂问题分解为多个原子粒度的子问题,确保主问题和子问题保持逻辑和精确。
-
逻辑形式表示
:每个子问题对应一个逻辑形式,逻辑形式包括自然语言部分和逻辑函数部分。例如,逻辑形式可以表示为“Step1: Who is the director of Hit Parade Of 1947? Action1: Retrieval(s=s1:film[‘Hit Parade Of 1947’], p=p1:director, o=o1:director)”。
-
依赖关系传播
:逻辑形式中的变量(如#1和o1)用于在子问题之间无缝传递文本和表达式,确保逻辑一致性和问题解决的连贯性。
通过这种方式,KAG-Thinker能够将复杂的多跳问题分解为多个可独立解决的子问题,从而提高问题解决的效率和准确性。
问题2:KAG-Thinker的知识边界确定模块是如何工作的?其优势是什么?
知识边界确定模块旨在减少不必要的外部检索操作,平衡LLMs的内在知识和外部信息。具体工作如下:
-
生成答案并评估
首先,LLMs尝试直接生成子问题的答案。然后,结合基于提示的置信度评估和基于似然的置信度评估,评估生成的答案的可靠性。
-
置信度评估
-
基于提示的置信度评估
:通过将子问题和生成的答案一起反馈给模型,提示模型判断其一致性,生成True或False的判断。
-
基于似然的置信度评估
:计算生成概率,选择最低生成概率作为置信度得分
\3. 决策知识来源:如果生成的答案的置信度得分满足预设阈值τ,则认为答案是可靠的,直接采用;否则,需要借助外部知识进行检索。
优势包括:
-
减少不必要的外部检索
通过智能判断,减少LLMs在不确定的情况下进行的外部检索,提高效率。
-
提高答案的准确性
通过结合两种置信度评估方法,确保最终答案的可靠性和准确性。
问题3:KAG-Thinker在医疗领域的应用有哪些具体案例?其效果如何?
KAG-Thinker在医疗领域的应用主要体现在其医疗问答系统中,具体案例包括:
-
疾病诊断
通过分解问题为多个子问题,逐步识别候选疾病并进行鉴别诊断。例如,计算烧伤面积和体重来确定补液量。
-
药物成分和剂量分析
处理涉及药物成分和剂量的复杂问题,避免生成误导性的答案。
-
临床案例分析
通过具体的病例分析,展示KAG-Thinker在医疗领域的实际应用效果。
效果评估:
-
数据集
使用MedQA数据集进行实验,随机抽取300条样本进行评估。
-
性能提升
KAG-Med-Thinker在不同基础模型上的表现均优于现有方法,特别是在DeepSeek-R1-Distill-Qwen-14B模型上,平均EM得分提高了4.41%。
-
稳定性
在HotpotQA、2Wiki和Musique数据集上的稳定性显著提高,平均分别提高了17.9%和7.6%。
通过这些应用和评估,证明了KAG-Thinker在医疗领域的有效性和实用性,特别是在处理复杂、多面的医疗问题时,能够提供准确、可靠的答案。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
优快云粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型实战项目&项目源码👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
为什么分享这些资料?
只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
优快云粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈