【值得收藏】从零开始构建RAG评估体系：让知识库建设从“凭感觉“到“可度量“

原创于 2025-11-24 19:52:20 发布 · 394 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #AI大模型 #大模型教程 #大模型学习 #大模型入门 #RAG #LLM

让知识库变得可度量：RAG知识库评估框架探索实践

一、背景与目的：知识库建设不能再「凭感觉」了

过去半年我们花了很多工夫来建设企业内部研发知识库，除了智能体的搭建，在知识输入上，我们梳理导入了包含研发架构管理制度与规范、各类内部平台操作与引导的知识内容，但始终不好回答一个关键问题：

内部知识库到底建设得好不好？有没有真正帮助到研发？

以前的评判方法非常粗糙：

看访问量？有人点了不代表有用
看采纳率？人工抽样能覆盖的问题太有限，而且采不采纳完全看抽样人主观判断
问一线同事？夸你两句你还当真了

最终只能靠「感觉」来判断效果，而这在一个科技团队内显然不那么「工程」与「科学」。

所以我们希望知识库的评估能够：

可量化（给出明确的分数）
可复现（能重复执行）
可对比（知道新知识有没有提升效果）

因此，我们构建了一套知识库评估框架，系统地评测量化我们的知识库与智能体回答能力。

二、指标体系：用三项核心算法量化知识库效果

要评价一个RAG知识库，业内已经有了比较成熟的评估框架，在探索中我们先选了三个核心指标：

1. Recall Score（检索召回率）

Recall Score 指标主要用来衡量系统是否检索到了正确的知识。构建知识库的第一步是检索，检索不准，后续生成就无从谈起。我们采用了余弦相似度（cosine similarity）来作衡量：

余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。

其中emb代表文字经过向量模型后的向量值，retrieved是检索到的文档内容，ground_truth是我们写的基准答案，如果知识库能够正确检索出与真实答案语义一致的内容，RecallScore 就会更高。

2. Correctness（答案正确度）

Correctness 指标用来衡量模型回答是否正确。即便检索正常，模型仍可能出现表达偏差或理解不准。我们使用同样的余弦相似度，将模型回答与标准答案比较：

上一个RecallScore指标是用来衡量找得对不对，而Correctness是用来衡量如Qwen3、Deepseek等大模型是否正确利用了检索出来的材料做出回答。直观区别就是Correctness中的answer是经过了大模型后的输出答案。

有四个场景可以进一步加深理解：

场景 A：RecallScore低，Correctness高

反映的是检索错了，但模型乱答出了正确内容（就是蒙对）。要么是问题非常简单，要么是模型本身能力很强，这种情况说明知识库白建了，而且还会让我们误以为自己做得很好。

场景 B：RecallScore高，Correctness低

检索对了，但模型回答错了。这说明知识库建设没问题，问题出在模型生成阶段，可以考虑换模型。

场景 C：RecallScore高，Correctness高

这就是我们想要的场景，知识库建设得好，模型回答得也好。

场景 D：RecallScore低，Correctness高

这说明知识库检索链路错误，导致模型没有拿到正确文档，并且模型也没办法推理出正确答案。好好回炉重建吧。

3. Groundedness（基于知识库程度）

Groundedness 指标用来衡量模型回答是否引用了知识库，而不是瞎编。简而言之就是用来衡量是否有「幻觉」，大模型是否自己加戏了。我们将模型回答与检索文档进行相似度匹配：

高Groundedness说明回答基于知识库，可信度高；低Groundedness说明有幻觉风险，需要调整。

仔细看就会发现，这三个指标就是对retrieved、answer、ground_truth这三个向量值C32求余弦，总结如下：

指标	衡量什么	反映什么
RecallScore	检索是否找到正确知识	RAG是否准确
Correctness	回答是否正确	大模型对问题理解与表达是否准确
Groundedness	回答是否基于知识	大模型是否有幻觉

三、系统建设：一套轻量可扩展的评估Pipeline

整个评测系统采用Python编写，在内网运行。总体架构沿用了知识系统自身的基础能力，因此非常轻量、易维护。（一句话就是，接口现成的，代码AI写的，vibe coding我谢谢你）

有四个核心模块：

1. retriever.py：向量检索

在向量模型上，用与内部知识库一致的bge-m3向量模型，确保评估一致性。

2. generator.py：调用 Dify 知识库问答接口

实际就是用Dify走一遍和真实用户一致的流程，都是标准接口。

3. evaluator.py：基于向量的三项指标计算

每个问题都会输出三项评分，算三个余弦值，代码就不贴了。

4. main.py：跑一遍完整测试集

也不赘述了。有需要可以去搂一眼：https://github.com/dumbray/rag_eval

四、评估结果与优化方向

我们先梳理了20道内部研发平台的高频问题，作为第一版benchmark，实际跑下来的平均分：

Recall Score：0.54
Correctness：0.75
Groundedness：0.59

整体表现只能说还行吧，提升空间还是很大的，而且这个分数跟人工抽样采纳率和用户的实际体验感受也差不多。

检索准确率（0.54）说明检索还需要增强
回答正确率（0.75）说明模型生成能力相对稳定，回答质量是可以了
Groundedness （0.59）说明还是有少量幻觉存在的

未来我们计划从以下几方面持续演进：

1. 扩充基准问题集

当前20道题还属于「小样本」，未来会持续扩展：

问题数量起码要到100+
问题覆盖范围要扩展至平台、工具链、流程规范等全范围
从实际日志、问答群中收集真实问题

还有就是现有问题是人工写的，后续也可以让大模型自动从知识库中抽取问题扩充问题集

2. 扩展评估指标

目前是纯向量相似度，但未来可以考虑：

引入 LLM-based 的一致性判断（如 GPT-Score）
引入 NLI（自然语言推理）判断回答是否“逻辑正确”
使用更适合评估的 Ranking 模型

（这些都是大模型跟我说的，有没有可行性之后再说吧）

五、呆瑞说

通过这套测评体系，我们可以把知识库建设效果从「我们觉得还不错」变成可度量、可追踪、可优化的工程能力。当然这个体系才刚运行，后续还有很多路要走，而且知识库这个形式也在不断发展，后续有了新的成果再跟大家汇报。

普通人如何抓住AI大模型的风口？

为什么要学AI大模型

当下，⼈⼯智能市场迎来了爆发期，并逐渐进⼊以⼈⼯通⽤智能（AGI）为主导的新时代。企业纷纷官宣“ AI+ ”战略，为新兴技术⼈才创造丰富的就业机会，⼈才缺⼝将达 400 万！

DeepSeek问世以来，生成式AI和大模型技术爆发式增长，让很多岗位重新成了炙手可热的新星，岗位薪资远超很多后端岗位，在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合，飞速发展，成为炙手可热的新风口，企业非常需要了解AI、懂AI、会用AI的员工，纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述

AI大模型开发工程师对AI大模型需要了解到什么程度呢？我们先看一下招聘需求：

在这里插入图片描述

知道人家要什么能力，一切就好办了！我整理了AI大模型开发工程师需要掌握的知识如下：

大模型基础知识

你得知道市面上的大模型产品生态和产品线；还要了解Llama、Qwen等开源大模型与OpenAI等闭源模型的能力差异；以及了解开源模型的二次开发优势，以及闭源模型的商业化限制，等等。

了解这些技术的目的在于建立与算法工程师的共通语言，确保能够沟通项目需求，同时具备管理AI项目进展、合理分配项目资源、把握和控制项目成本的能力。

产品经理还需要有业务sense，这其实就又回到了产品人的看家本领上。我们知道先阶段AI的局限性还非常大，模型生成的内容不理想甚至错误的情况屡见不鲜。因此AI产品经理看技术，更多的是从技术边界、成本等角度出发，选择合适的技术方案来实现需求，甚至用业务来补足技术的短板。

AI Agent

现阶段，AI Agent的发展可谓是百花齐放，甚至有人说，Agent就是未来应用该有的样子，所以这个LLM的重要分支，必须要掌握。

Agent，中文名为“智能体”，由控制端（Brain）、感知端（Perception）和行动端（Action）组成，是一种能够在特定环境中自主行动、感知环境、做出决策并与其他Agent或人类进行交互的计算机程序或实体。简单来说就是给大模型这个大脑装上“记忆”、装上“手”和“脚”，让它自动完成工作。

Agent的核心特性

自主性： 能够独立做出决策，不依赖人类的直接控制。

适应性： 能够根据环境的变化调整其行为。

交互性： 能够与人类或其他系统进行有效沟通和交互。

对于大模型开发工程师来说，学习Agent更多的是理解它的设计理念和工作方式。零代码的大模型应用开发平台也有很多，比如dify、coze，拿来做一个小项目，你就会发现，其实并不难。

AI 应用项目开发流程

如果产品形态和开发模式都和过去不一样了，那还画啥原型？怎么排项目周期？这将深刻影响产品经理这个岗位本身的价值构成，所以每个AI产品经理都必须要了解它。

看着都是新词，其实接触起来，也不难。

从0到1的大模型系统学习籽料

最近很多程序员朋友都已经学习或者准备学习 AI 大模型，后台也经常会有小伙伴咨询学习路线和学习资料，我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师（吴文俊奖得主）
在这里插入图片描述

给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料，这些学习资料不仅深入浅出，而且非常实用，让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。
在这里插入图片描述

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入，精准学习显得尤为重要。一份系统的技术路线图，不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点，还能提供一条高效、有序的学习路径。

基础篇，包括了大模型的基本情况，核心原理，带你认识了解大模型提示词，Transformer架构，预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门AI大模型
进阶篇，你将掌握RAG，Langchain、Agent的核心原理和应用，学习如何微调大模型，让大模型更适合自己的行业需求，私有化部署大模型，让自己的数据更加安全
项目实战篇，会手把手一步步带着大家练习企业级落地项目，比如电商行业的智能客服、智能销售项目，教育行业的智慧校园、智能辅导项目等等