从 RAG 到 CAG：知识任务处理新思路

最新推荐文章于 2025-06-14 22:44:09 发布

科技之歌

最新推荐文章于 2025-06-14 22:44:09 发布

阅读量1.1k

点赞数 13

分类专栏：大模型文章标签：人工智能

本文链接：https://blog.youkuaiyun.com/kunpengtingting/article/details/145142237

版权

大模型专栏收录该内容

33 篇文章

订阅专栏

在人工智能领域，随着大型语言模型（LLM）的广泛应用，如何高效地利用外部知识来提升模型在知识任务上的表现成为了研究热点。检索增强生成（RAG）架构在一定程度上解决了 LLM 知识局限的问题，看到一篇新的文章《Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks》有些新的思考，整理出来分享给大家。

一、RAG 的困境

RAG 的核心在于推理过程中从外部知识库检索信息并融入 LLM 生成过程。在其架构中，当面临用户查询时，检索模型会在知识库中搜索相关文档，然后将这些文档与查询一起提供给 LLM。例如在一些问答场景中，若用户询问关于某历史事件的详细信息，RAG 系统会先在历史知识库中查找相关资料，再将这些资料和问题一同交给语言模型生成答案。

然而，随着应用场景日益复杂，RAG 的弊端逐渐凸显。

实时检索操作是其效率瓶颈之一，从大规模知识库中查找相关信息需要耗费大量时间，导致用户等待答案的时间延长。
在处理复杂问题时，文档选择过程也容易出错，可能会遗漏关键信息或引入不相关内容，影响答案的准确性。
其系统架构相对复杂，涉及检索模型与语言模型的协同工作，增加了开发与维护的难度。

二、CAG 架构的核心技术原理

（一）知识预加载

CAG 的第一步是知识预加载。系统会对目标领域的所有相关文档进行细致梳理与结构化，使其符合 LLM 能够理解的格式。通过对不同类型的文档进行标准化处理，比如在医学领域，对于大量的医学研究文献、病例报告等，会进行文本清理、术语标准化等操作，确保 LLM 能够准确识别和处理。随后，LLM 对这些预处理后的文档进行编码，生成键值缓存（Key-Value Cache）。编码过程是基于 LLM 的内部语义理解机制，将文档中的语义信息转化为特定的键值对。例如在自然科学领域，对于物理定律、化学方程式等知识，会被编码成特定的键值对存储起来，其中键可能是定律或方程式的关键描述符，值则是其详细的数学表达式或文字解释，方便后续快速调用。

（二）缓存上下文推理

当用户发起查询时，系统将预加载的键值缓存与查询一同输入 LLM。此时，LLM 无需像在 RAG 架构中那样等待检索结果，而是直接依据缓存中的知识进行推理生成答案。在这个过程中，LLM 会根据查询内容在缓存中快速定位相关的键值对，并利用其推理和生成能力，结合这些知识生成连贯的回答。

例如在法律领域，当用户咨询关于某类合同纠纷的法律条款适用问题时，LLM 能够从缓存的法律条文及相关案例的编码信息中提取关键内容，通过对这些法律知识的理解和运用，结合问题进行分析和回答，提高响应速度。由于缓存中的知识是经过预加载和整理的，LLM 在推理过程中能够更好地把握知识之间的关联性，生成的答案更加准确和全面。

（三）缓存高效管理

为确保系统始终保持高效运行，CAG 采用了缓存高效管理策略。由于知识是不断更新和演进的，缓存需要定期更新或重置。在金融领域，市场数据和经济政策频繁变动，系统会根据设定的时间周期或数据更新触发点，重新加载和编码新的金融报告、政策文件等知识，替换掉旧的缓存内容。这个更新过程需要算法来识别新的关键知识并将其融入缓存，同时要避免对已有有效知识的干扰。

例如，可以采用增量更新的方法，只对新出现或有重大变化的知识进行处理，同时对缓存中的旧知识进行验证和更新，保证答案的时效性和准确性。

三、CAG 相较于 RAG 的优势

（一）速度大幅度提升

CAG 最直观的优势就是推理速度的大幅提升。由于 CAG 省去了 RAG 中的实时检索环节，在实际测试中，其速度优势可达数倍。RAG 在处理每个查询时都需要在知识库中进行搜索、筛选和提取相关文档，涉及大量的磁盘 I/O 操作和数据传输，而 CAG 直接从内存中的键值缓存读取信息，大大减少了数据处理的时间开销。

例如在一个拥有海量技术文档的 IT 知识库场景中，当用户询问关于某种编程语言的新特性问题时，CAG 能够快速从缓存中获取相关知识并生成回答，而 RAG 可能检索过程中耗费数秒。速度的提升在对响应时间要求较高的场景，如在线客服、智能助手等领域，能够显著提升用户体验。

（二）准确性更高

CAG 通过预加载全部相关知识，使得 LLM 能够对问题涉及的信息进行更全面深入的理解。在 RAG 中，由于检索到的文档可能只是部分相关，容易导致信息碎片化，影响模型对整体知识脉络的把握。而 CAG 中 LLM 能够一次性获取完整的知识集合，从而生成更准确、连贯的回答。

在学术研究领域的测试中，如在 HotPotQA 数据集上，CAG 的 BERT-Score 达到 0.7759，显著高于 RAG 系统。表明在处理复杂的知识关联问题时，CAG 能够更好地整合知识，避免因信息缺失或误导而产生的错误答案。例如在历史研究中，当研究人员询问关于某个历史时期的政治、经济和文化相互关系的问题时，CAG 能够从预加载的全面历史资料中提取相关信息，给出更准确和深入的分析，而 RAG 可能会因为检索到的资料有限而无法提供完整的解释。

（三）架构简化

从系统架构角度来看，CAG 相较于 RAG 更为简洁。RAG 需要维护检索模型和语言模型的复杂交互机制，包括索引构建、检索算法优化等多个组件。而 CAG 将重点放在知识的预加载和缓存管理上，减少了系统的复杂性。这不仅降低了开发难度，缩短了开发周期，而且在后续维护过程中也更加便捷。例如在小型企业的智能客服系统开发中，采用 CAG 架构可以减少对专业检索技术团队的依赖，降低系统搭建和维护成本，同时提高系统的稳定性和可靠性。企业可以将更多的资源投入到业务逻辑的优化和用户体验的提升上，而不是花费大量精力在复杂的技术架构维护上。

四、CAG 的局限性与应对策略

（一）适用场景限制

CAG 的核心限制在于其依赖于将所有相关知识加载到 LLM 的上下文窗口中。在处理海量且动态变化的知识库时，如互联网规模的通用知识领域，可能会面临内存不足和更新困难的问题。

例如在全球新闻资讯领域，新闻内容每时每刻都在更新，要将所有新闻知识都预加载到模型上下文窗口是不现实的。对于这种情况，一种应对策略是对知识库进行合理的分区和筛选，根据应用场景的重点和用户需求的频率，选择最相关和最常用的知识进行预加载，同时结合定期更新机制，确保关键知识的时效性。通过采用基于主题的分区方法，将新闻资讯按照政治、经济、科技等主题进行分类，然后根据用户的兴趣和使用历史，优先加载热门主题的知识，并定期更新这些主题下的最新资讯。

（二）上下文窗口挑战

虽然随着模型技术的发展，上下文窗口在不断扩大，但仍然存在一定的限制。当处理超长文本或复杂知识体系时，可能无法一次性将所有相关知识都纳入上下文窗口。

如在法律条文解释和历史事件分析等场景中，可能涉及大量的相关文档和背景知识。遇到该业务场景，可以采用分层缓存和动态加载的策略。将知识按照重要性和关联性进行分层存储。

在推理过程中，根据问题的需求动态地加载不同层次的知识缓存，在保证效率的同时尽量扩大知识的覆盖范围。例如在法律领域，可以将宪法、基本法律、行政法规等按照层级进行缓存，当遇到具体法律问题时，先从高层级的法律知识缓存中查找相关信息，如果不够再逐步加载低层级的详细法规和案例，确保在有限的上下文窗口内获取最关键的知识。

（三）与 RAG 的融合探索

鉴于 CAG 和 RAG 各自的优缺点，探索两者的混合模式也是一个值得关注的方向。在一些复杂的应用场景中，可以结合 RAG 的实时检索能力和 CAG 的快速推理优势。例如在企业的知识管理系统中，对于常见问题和核心知识采用 CAG 进行快速响应，而对于一些罕见问题或新出现的知识需求，则利用 RAG 从更广泛的知识库中进行检索补充。通过智能的切换机制和结果融合算法，实现两种架构的协同工作，提高系统在不同场景下的适应性和性能表现。

在企业的技术研发知识管理中，对于常用的技术规范和流程知识采用 CAG 快速提供解答，而对于新出现的技术难题或前沿研究动态，则利用 RAG 从行业数据库中检索最新信息，然后将两者的结果进行综合分析，为研发人员提供更全面的知识支持。

总之，从 RAG 到 CAG 的发展是人工智能知识处理领域的一次重要变革，CAG 以其独特的技术原理和显著的优势为知识密集型任务带来了新的解决方案，但同时也面临着一些新的问题，通过不断的研究CAG的思路，能够给大家带来一些新的想法和启发。