Rag-Factory:qwen3-14b的RAG框架

最新推荐文章于 2025-12-01 06:10:14 发布

原创最新推荐文章于 2025-12-01 06:10:14 发布 · 667 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

部署运行你感兴趣的模型镜像

一、Rag简介

RAG（Retrieval-Augmented Generation，检索增强生成）成为大模型落地检索场景的事实标准，RAG技术自提出以来经历了清晰的代际演进。最初的第一代RAG采用简单直接的流程：将用户查询向量化后从向量库中检索若干文本片段，拼接后输入大语言模型生成答案。这种架构虽然易于实现，但受限于检索结果的碎片化和缺乏上下文关联，容易导致信息割裂与幻觉问题；第二代RAG引入了精细化的检索管道，通过语义分块、查询扩展、重排序以及混合检索（如BM25与向量结合）等策略显著提升了召回率与相关性，成为当前工业界主流方案；进入2024年后，RAG进一步向第三代演进，核心目标是从“检索文本”转向“理解知识结构”。这一代主要分化为两条技术路线：一是Graph RAG，通过离线构建知识图谱将文档转化为实体-关系网络；另外是DeepSearcher，由LLM智能体在查询时动态规划多轮检索与验证策略，有各自的特点，标志着RAG从信息检索工具迈向具备深度推理能力的知识引擎。

RAG的代际演进

第一代RAG（基础版）

流程：用户输入 → 向量化 → 向量库检索 → 拼接 → LLM生成
问题：检索结果碎片化，无法理解文档间关系，易产生幻觉
代表：简单使用FAISS/Chroma的实现

第二代RAG（当前方案）

核心改进：不是换模型而是重构检索流程，补充多个模块：查询扩展、重排序、语义分块

查询扩展（Query Expansion）：将原始 query 改写为多个语义等价形式（如 HyDE、多视角提问），提升召回率 20–30%
重排序（Re-ranking）：对初步检索结果用 cross-encoder（如 Cohere Rerank、BGE-Reranker）重新打分，提升相关性 30–50%
语义分块（Semantic Chunking）：基于句子嵌入相似度动态切分，避免硬切在句子中间提升长文档推理连贯性

第二代RAG 的完整流程扩展为：用户输入→查询扩展→Embedding检索→Rerank重排→上下文构建→LLM生成→格式化输出。

在这个流程中，关键瓶颈在于“召回”的质量直接决定了LLM回答的上限。如果召回的文档相关性不强，或者关键信息被淹没在大量无关文本中，那么即便是最强大的LLM也难以给出精准的答案。为了解决这个问题，RAG领域引入了“精排”（Re-ranking）阶段。在传统的“召回”之后加入一个 Reranker 模型，它会对初步召回的文档列表进行二次排序，更精准地评估每个文档与用户问题的“真实相关性”，将最关键的文档排在最前面。

Embedding 模型负责“广度”，它的目标是从海量文档中快速、准确地“召回”一个相关的候选集。
Reranker 模型负责“精度”，它的目标是对小范围的候选集进行“精排”，提升信噪比，为LLM提供最高质量的上下文。

第三代RAG（Graph RAG & DeepSearcher）

从2024至今，算是在RAG领域中最前沿的方向，幕墙分为两大流派

Graph RAG，通过离线构建知识图谱将文档转化为实体-关系网络，支持多跳推理与全局一致性，显著降低生成时的Token消耗并提升可解释性
DeepSearcher为代表的Agent派RAG，不依赖预建图谱，而是由LLM智能体在查询时动态规划多轮检索与验证策略，实现零建库成本下的复杂问题求解。

维度	DeepSearcher	Graph RAG
知识建模	无图，靠 Agent 多次向量搜索	显式三元组图
推理路径	动态决定搜几次	固定图遍历
可解释性	输出思考链	输出子图路径
建库 GPU 需求	0 GB（CPU 即可）	10-13 GB
查询 Token 成本	高（多轮迭代）	低（一次性子图）
实现复杂度	低（纯 Python）	中（需图库）

二、功能选型

1、RAG代际选择

考虑到是在Tesla T4 上部署的系统，所以先选择工业界最成熟、性价比最高的方案：Qwen3-Embedding + Qwen3-Reranker + Milvus + 动态分块 + BM25

Qwen3-Embedding，Qwen3-Reranker均采用32k tokens 的上下文窗口：Embedding采用了 RoPE位置编码和双块注意力机制（Dual Chunk Attention）等先进技术，旨在有效捕捉长文档中的语义关联，避免长程信息丢失；Reranker采用了cross-encoder，任务本质是二分类（相关/不相关），模型在构造的 (query, doc, label) 三元组上微调，query和doc 拼接后一起输入模型，虽然速度慢但计算更精准。

2、嵌入（Embedding）模型

效果对比（基于公开评测）

1. 国际权威榜单 MTEB（Massive Text Embedding Benchmark）

BGE-M3：长期稳居 MTEB Leaderboard 第一（截至2025年初）
Jina-Embeddings-v2-large：在英文任务上接近 BGE-M3，但在中文任务略弱
Qwen3-Embedding-4B：未参与 MTEB 官方评测，但在中文专项评测 C-MTEB表现优异

实测建议（尤其针对医疗 RAG 场景）

若以中文为主（如医疗病历、中医文献）：Qwen3-Embedding-4B > BGE-M3 > Jina-v2
若需多语言混合（中英混杂）：BGE-M3 ≈ Qwen3-Embedding-4B > Jina-v2
若资源受限（Tesla T4 16GB）：Qwen3-Embedding-0.6B性价比为佳，效果接近 4B 版本 90%，显存仅需 ~4GB

3、重排序（Reranker）模型

1. MTEB Reranking 榜单

BGE-Reranker-v2-M3：在 MTEB rerank 任务中排名第一（2024–2025）
Qwen3-Reranker-4B：未参与 MTEB，但在中文医疗问答重排实测中表现突出

实际测试表明：

Qwen3-Reranker-4B 在中文长 query + 长 doc 场景（如病历检索）中，NDCG@5 比 BGE-Reranker-v2 高 3–5%
BGE-Reranker-v2 在短 query（如“糖尿病症状”）上略优，且推理速度更快

若未来需要处理复杂推理、多跳问答、知识一致性要求高的场景（如医疗诊断、法律咨询），则考虑向第三代演进：可根据资源选择 Graph RAG 或 Agent RAG。

4、第3代RAG选型

性能与资源需求总览

维度	Graph RAG	LightRAG	DeepSearcher
建库 GPU 需求	10–13 GB（需 24 GB 卡）	0 GB（CPU 16 GB 内存即可）	0 GB（CPU 即可）
建库耗时（50万段）	28 h（CPU）	5 h（CPU）	1 h（仅向量）
磁盘膨胀率	80%	15%	12%
查询延迟（T4）	0.8–0.9 s	0.4 s	1.1 s
在线Token/100查询	4 M	3 M	12 M
增量更新	需重建	< 2 min	< 1 min
多跳 Recall@5	0.9	0.91	0.84
可解释性	子图路径	实体-关系链	思考链

资源需求速览（单节点 50 万段文本）

行业场景	方案	多跳	幻觉率	长度token	查询延迟	Token/ 100Q	增量更新	一句话建议
医学咨询	Graph RAG	0.88	2.10%	280	0.9	4 M	X	硬件够→首选
	LightRAG	0.87	2.30%	275	0.4	3 M	√	零GPU→几乎不掉点
	DeepSearcher	0.72	6.30%	420	1.3	12 M	√	Token高、幻觉高→次选
法律咨询	Graph RAG	0.92	2.70%	267	0.9	4 M	X	最准
	LightRAG	0.9	3.00%	238	0.4	3 M	√	快慢兼顾→律所落地最多
	DeepSearcher	0.83	8.40%	489	1.1	15 M	√	长答案→板书差
金融分析	Graph RAG	0.85	3.00%	270	0.9	4 M	X	因果链最准
	LightRAG	0.83	3.20%	265	0.4	3 M	√	CPU 零 GPU→准
	DeepSearcher	0.69	7.10%	480	1.2	13 M	√	数值一致性差
心理辅导	Graph RAG	0.79	3.00%	280	0.9	4 M	X	路径生硬
	LightRAG	0.78	3.20%	260	0.4	3 M	√	简洁但缺温度
	DeepSearcher	0.82	5.50%	450	1.1	12 M	√	共情度最高→首选
教育培训	Graph RAG	0.9	2.50%	267	0.9	4 M	X	更新慢
	LightRAG	0.91	2.60%	238	0.4	3 M	√	跨学科+增量快→首选
	DeepSearcher	0.93	4.00%	421	1.1	10 M	√	单点题最准
企业通用	Graph RAG	0.9	2.20%	270	0.9	4 M	X	多跳准但运维重
	LightRAG	0.89	2.30%	250	0.4	3 M	√	增量15 min→最平衡
	DeepSearcher	0.78	5.00%	400	1.1	11 M	√	先上线→再迁移

5、向量库选择

方案	显存影响	部署复杂度	扩展性	适用性
Milvus Lite	无影响	极简	差	小规模、开发/轻量生产
Milvus（CPU 模式）	无影响	中等	好	中大规模、需持久化
Milvus（GPU 模式）	高风险	复杂	极好	亿级向量、高并发

Milvus / 向量检索语境中，“文档数量”通常指“chunk 数量”或“embedding 向量数量”，而不是原始文件数

向量化前需做文本分块（Chunking）。embedding 模型（如 qwen3-embedding）通常支持最大 8192 或 32768 token 的输入。实际使用中，为保语义完整性和性能，常用 chunk_size = 512~1024 token。因此，一个 100KB 的 TXT 文件会被切成约 100–250 个chunk。

6、数据分块

数据分块是RAG系统的基石，直接决定了检索质量的上限。没有一种策略是万能的，取决于系统的应用场景的选择和数据的特性。

分块策略	实现方式	优点	缺点	适用场景
固定长度分块	按固定Token数量（如512）切分文本。	实现简单，计算效率高，易于管理。	容易割裂语义，将完整概念切分到两个块中。	结构规整、语义单元长度接近的文档（如新闻稿、官方文档）。
按段落/句子分块	利用自然语言处理工具，按段落或句子边界切分。	保留基本的语义完整性，符合人类阅读习惯。	依赖准确的段落/句子识别，对格式混乱的文档不友好。	大部分通用型长文档，如报告、论文、书籍。
语义分块	利用嵌入模型或LLM理解文本，将语义相近的句子自动聚合。	分块边界更智能，能更好地保持上下文。	实现复杂，计算开销较大。	内容结构复杂、语义层次多的文档，如学术论文、综合报告。
后期分块	先使用长上下文模型嵌入整个文档，再对生成的Token向量进行分块和池化。	最大化保留全局上下文，每个小块都“知晓”全文信息，检索准确率高。	对嵌入模型的长文本能力要求高，需要向量数据库支持。	处理长文档（如产品手册、法律合同）时的优先推荐方案。

7、微调和RAG

在大模型落地实际业务场景的过程中，如何提升其回答的准确性、专业性和时效性是核心挑战。目前，业界主要通过两种互补的技术手段来增强模型的知识能力：检索增强生成（RAG）和模型微调（Fine-tuning）。

二者虽实现机制不同：RAG通过“外挂知识库”实现动态信息注入，SFT通过“参数内化”实现知识固化。但最终目标一致：让大模型在特定领域或任务中输出更可靠、更符合业务需求的结果。

基于实际应用经验和相关研究，我们可以大致量化这种差距：

在精确事实召回任务上，RAG的准确率通常比微调高15-25%
在复杂推理任务上，微调的表现通常比RAG好20-30%
在知识更新场景中，RAG的维护效率比微调高5-10倍

知识类型	特点	技术需求
基础医学知识	相对稳定，变化缓慢（如解剖、生理、病理）	适合微调
临床指南规范	定期更新，有明确版本	适合RAG
药品信息	频繁更新（新药、新适应症、新禁忌）	必须使用RAG
诊断逻辑	相对稳定，基于医学原理	适合微调
个体化治疗方案	基于患者具体情况组合	微调+RAG组合
医学文献证据	海量且持续增长	必须使用RAG

诊断场景的技术选择

使用微调来培养模型的"医学思维" - 掌握诊断逻辑、辨证方法、专业沟通；使用RAG来确保知识的"准确性和时效性" - 提供最新药品信息、治疗指南、安全数据。

最重要的是：在涉及用药安全的环节，必须建立"RAG优先"的强制安全核查机制，任何处方建议都应该有可追溯的权威来源支持。

医学场景	主要技术	辅助技术	原因说明
初步问诊	微调 (80%)	RAG (20%)	需要系统的医学思维模式
鉴别诊断	微调+RAG并重	-	既需要思维框架，也需要最新证据
西药处方	RAG (70%)	微调 (30%)	安全性第一，必须基于最新药品信息
中药处方	微调 (60%)	RAG (40%)	需要辨证论治思维+药材安全信息
治疗方案解释	微调 (70%)	RAG (30%)	需要专业沟通技巧+最新研究支持
紧急情况识别	微调 (90%)	RAG (10%)	需要快速、准确的模式识别

必须使用RAG的场景

药品剂量计算：必须基于最新批准的药品说明书
禁忌症检查：必须实时更新，特别是新发现的不良反应
药物相互作用：需要访问最新的相互作用数据库
治疗指南：遵循最新发布的临床实践指南

适合微调的场景

诊断思维训练：培养系统的临床推理能力
医患沟通：学习专业的沟通语言和技巧
中医辨证：掌握传统的辨证论治体系
病例分析模式：识别典型的临床表现模式

8、自研 & dify & coze

基于第2代RAG系统，是选择自研还是采用Dify、Coze这类现有平台，需要有个抉择，本质上是在开发的便捷、开箱即用的功能与极致的灵活性、可控性和深度定制能力之间的权衡。

Dify

一体化集成：所有功能无缝集成，开箱即用。
控制与灵活性较低，组件替换和深度定制挑战大
效率高，可视化工具快速搭建应用，提供了基于大模型的业务流程编排，成熟的可视化工作流，单Agent可控性强，调试体验好
垂直扩展尚可，但开源dify在一定的业务量上性能有瓶颈
技术栈基于Python (Flask) + React，AI生态丰富，开发者众多

Coze

模块化套件：Coze Studio（开发平台） + Coze Loop（运维） + Eino（开发框架）
组件替换和深度定制挑战大,提供工作流引擎和插件系统，更强调多Agent的协同能力。
微服务架构水平扩展性好，但部署复杂
技术栈基于Golang,Golang + React：高并发性能好，但AI领域生态相对较新。

自研

从快速开发和产品成熟度而言，肯定是dify和coze胜出，但rag项目是私域大健康平台的一部分，包括基于unsolth的微调框架，rag框架，chatbot框架，单纯的rag框架不足以支持我们的应用，所以我们采用自研rag的路线，全面完全自主掌控整个技术架构和脉络。

从不多的公开资料得知，Dify 的工作流本质上是一个 DAG 结构，使用 Python 异步任务调度 + 状态机管理，结合数据库持久化节点状态，节点间通过变量传递上下文，支持动态输入输出绑定的功能；Coze工作流核心可能仍是 DAG 变体，更贴近 Agent 思维链（Chain-of-Thought）和工具调用（Function Calling）的实现

单纯对于Rag应用本身而言，RAG流程天然适合DAG（文档→分块→嵌入→检索→生成），而且执行效率高，易于优化，但我们系统定位不仅只是Rag，大模型编排系统不单服务于Rag场景，将来还要支持多专家协同处理的业务需求，需要回退，循环，分支等高阶处理。所以不能采用dag模式，只能采用借鉴活动图或者借鉴petri net方式。大模型的流程编排，考虑开发一个编排组件，采用类似活动图/Petri Net的方式。

单一代理：独立运行的LLM驱动模块，专注于特定任务（如诊断、治疗建议或患者咨询），无需与其他代理交互（请求/响应方式）
顺序任务链代理：多个代理按预设顺序依次执行任务，形成流水线式工作流，例如“症状分析→诊断→治疗方案生成（类似DAG流程）
协作专家代理：在协同工作的领导下，有一个被指定为“指挥家”的中心Agent，负责协调各agents之间的交互顺序。每个代理都被分配到一个特定的角色，并配备了特定领域的专业知识。我们实现了具有不同技能集的agents，包括但不限于变量提取、术语解释器、数学模型构建、编程和代码审查（需要循环，分支，甚至是回退）
迭代进化代理：代理通过反馈循环持续优化自身能力，结合外部数据更新和内部推理机制实现动态学习（类似很灵活的自由流程）

从上图agent流程来看，面向复杂的业务逻辑，诸如多LLM协作、多agent协同，当前dify和coze并不能很好的支持。之前已经有了开发unsloth-facotory微调框架的经验，基于tesla t4 16g显卡利用Unsloth + FastLanguageModel + 原始 tokenizer的方案 ≈ 原生 Transformers 全精度推理，在小尺寸显卡上提供了质量-显存比最高的实现。基于以小博大，见微知著的思路，以及着眼于未来更好的把控技术的发展方向，能在廉价体系下上运行人工智能的服务，自研rag-factory就是最优解，后续再推进workflow-factory，以及chatbot-factory的设计与开发。

三、设计思路

1、分层架构概述

RAG应用采用了分层架构设计，从上至下分为四个层次：CLI接口层、业务逻辑层、核心组件层和基础设施层。每一层都承担着特定的功能，旨在实现清晰的责任分离，并简化维护过程。

1.1、CLI接口层：

此层包含所有与用户交互的命令行界面（CLI），负责接收用户的输入并展示处理结果。

位置: cli.py + commands/*.py

职责:提供命令行交互接口，解析用户输入参数，命令路由和分发，结果格式化输出

支持命令:embed - 文档嵌入处理；chat - 对话交互；validate - 系统验证；evaluate - 性能评估

1.2、业务逻辑层：

位于CLI接口层之下，主要负责执行具体的操作，如对话生成、内容嵌入等。

位置: core/rag_engine.py + chat/*.py

职责:协调核心组件工作流程；实现业务用例逻辑；管理对话状态和上下文；错误处理和重试机制

1.3、核心组件层：

提供基础功能的实现，包括文档处理、分块策略、嵌入生成、向量存储和检索等功能。

位置: retrievers/, chunkers/, expanders/

检索器 (Retrievers):包括HybridRetriever - 混合检索策略；支持稠密检索和稀疏检索；多路召回和结果融合
分块器 (Chunkers):包括DynamicChunker - 动态分块；AdvancedChunker - 高级分块策略；支持重叠分块和语义分块
扩展器 (Expanders):包括查询扩展和重写；语义增强处理

1.4、基础设施层：

支持整个应用程序的基础服务，例如实用工具和向量数据库等。

位置: utils/, core/vector_store.py

向量存储:包括VectorStore - 抽象向量存储接口；Milvus集成实现；向量索引管理
嵌入服务:EmbeddingClient - 嵌入生成客户端；多模型支持（因tesla t4的限制，最大只支持14b模型）
重排序服务:RerankClient - 结果重排序；相关性评分优化

2、核心组件交互流程

用户输入
    ↓
CLI解析 (cli.py)
    ↓
命令分发 → embed/chat/validate/evaluate/collections
    ↓
RAG引擎 (rag_engine.py)
    ├── 文档处理 → DocumentProcessor
    ├── 分块策略 → DynamicChunker/AdvancedChunker  
    ├── 嵌入生成 → EmbeddingClient
    ├── 向量存储 → VectorStore (Milvus)
    ├── 检索器 → HybridRetriever
    └── 重排序 → RerankClient
    ↓
结果输出/对话生成

用户通过CLI接口层输入指令。
输入被传递到命令解析器进行分析，并根据输入内容将请求分发给不同的业务逻辑模块。
RAG引擎是处理这些请求的核心，它协调各个组件完成任务，包括但不限于文档处理、动态或高级分块、嵌入生成、向量存储和检索、结果重排序等。
最终，处理结果通过CLI接口层反馈给用户或者直接用于对话生成。

3、代码树结构

.
├── cli.py                          # 命令行主入口
├── pyfiles.py                      # 代码收集工具
└── src/
    ├── __init__.py
    ├── commands/                   # 命令实现
    │   ├── __init__.py
    │   ├── chat_command.py         # 对话命令
    │   ├── collections_command.py  # 集合管理
    │   ├── embed_command.py        # 嵌入处理
    │   ├── evaluate_command.py     # 评估命令
    │   └── validate_command.py     # 验证命令
    ├── core/                       # 核心业务逻辑
    │   ├── __init__.py
    │   ├── rag_engine.py           # RAG主引擎
    │   ├── document_processor.py   # 文档处理（语义增强）
    │   ├── embedding_client.py     # 嵌入客户端（T4优化）
    │   ├── vector_store.py         # Milvus向量存储
    │   ├── rerank_client.py        # 重排序客户端
    │   ├── model_loader.py         # 模型加载器
    │   └── async_embedder.py       # 异步嵌入器
    ├── retrievers/                 # 检索器组件
    │   ├── __init__.py
    │   ├── base_retriever.py       # 检索器基类
    │   ├── dense_retriever.py      # 稠密检索
    │   ├── sparse_retriever.py     # 稀疏检索（BM25）
    │   └── hybrid_retriever.py     # 混合检索
    ├── chunkers/                   # 文档分块策略
    │   ├── __init__.py
    │   ├── dynamic_chunker.py      # 动态分块（主推）
    │   ├── advanced_chunker.py     # 高级分块
    │   ├── hybrid_chunker.py       # 混合分块
    │   └── semantic_chunker.py     # 语义分块
    ├── expanders/                  # 查询扩展
    │   ├── __init__.py
    │   ├── query_expander.py       # 基于规则的扩展
    │   └── semantic_expander.py    # 语义扩展
    ├── evaluators/                 # 评估组件
    │   ├── __init__.py
    │   ├── retrieval_evaluator.py  # 检索评估
    │   ├── generation_evaluator.py # 生成评估
    │   └── end_to_end_evaluator.py # 端到端评估
    ├── chat/                       # 对话界面
    │   ├── __init__.py
    │   ├── rag_chat.py             # 对话系统
    │   ├── session_manager.py      # 会话管理
    │   ├── web_ui.py               # Web界面
    │   └── web_ui_enhanced.py      # 增强Web界面
    ├── utils/                      # 工具库
    │   ├── __init__.py
    │   ├── config_manager.py       # 统一配置管理
    │   ├── cache_manager.py        # 缓存管理
    │   ├── error_handler.py        # 错误处理
    │   ├── logger.py               # 日志配置
    │   ├── request_queue.py        # 请求队列
    │   ├── helpers.py              # 辅助函数
    │   └── version_compat.py       # 版本兼容
    └── test/                       # 测试工具
        ├── debug_collections.py
        └── test_milvus_compatibility.py

四、文档嵌入

(unsloth) yaoxp@ubt22ai3:~/work/sft/rag-factory03$ python cli.py embed \
    --knowledge_dir knowledge/medical \
    --domain medical \
    --embedding_model /home/yaoxp/models/Qwen3-Embedding-06B/ \
    --chunk_strategy dynamic \
    --target_chunk_size 1000 \
    --chunk_overlap 0 \
    --min_chunk_size 50 \
    --max_chunk_size 3000 \
    --semantic_threshold 0.75 \
    --enable_cache \
    --enable_bm25 \
    --max_workers 4 \
    --batch_size 16 \
    --milvus_collection rag_medical11
加载文档: 100%|█| 1/1 [00:01<00:00,  1.21s/it, 当前文件=SFT_structPrescription_9289
文档分块: 100%|███████████████████████████| 92896/92896 [00:08<00:00, 10678.16it/s]
生成嵌入: 100%|██████████████████████████████| 11599/11599 [32:28<00:00,  5.95it/s]
存储到向量数据库: 100%|████████████████████████| 928/928 [2:44:25<00:00, 10.63s/it]
Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.798 seconds.
Prefix dict has been built successfully.

embedding_report.txt 内容

文档嵌入报告（语义增强版）
============================================================
领域: medical
知识库目录: knowledge/medical
集合名称: rag_medical11
嵌入模型: /home/yaoxp/models/Qwen3-Embedding-06B/
分块策略: dynamic
向量数据库: Milvus
Milvus地址: localhost:19530

增强功能:
  语义增强: 是
  缓存启用: 是
  BM25检索: 是
  窗口压缩: 否
  工作线程: 4
  批处理大小: 16

处理结果:
  总文档数: 92896
  成功处理: 92896
  成功率: 100.00%

RAG统计信息:
  embedding_model: /home/yaoxp/models/Qwen3-Embedding-06B/
  rerank_enabled: False
  rerank_model: None
  query_expansion_enabled: False
  expansion_strategy: None
  vector_db_type: milvus
  document_count: 92787
  chunk_strategy: dynamic
  similarity_threshold: 0.75

embedding_stats.json 内容

{
  "domain": "medical",
  "knowledge_dir": "knowledge/medical",
  "collection_name": "rag_medical11",
  "total_documents": 92896,
  "processed_documents": 92896,
  "embedding_model": "/home/yaoxp/models/Qwen3-Embedding-06B/",
  "chunk_strategy": "dynamic",
  "vector_db": "milvus",
  "milvus_host": "localhost",
  "milvus_port": 19530,
  "enhanced_features": {
    "enable_cache": true,
    "enable_bm25": true,
    "enable_window_compression": false,
    "max_workers": 4,
    "batch_size": 16,
    "semantic_enhancement": true
  },
  "rag_stats": {
    "embedding_model": "/home/yaoxp/models/Qwen3-Embedding-06B/",
    "rerank_enabled": false,
    "rerank_model": null,
    "query_expansion_enabled": false,
    "expansion_strategy": null,
    "vector_db_type": "milvus",
    "document_count": 92787,
    "chunk_strategy": "dynamic",
    "similarity_threshold": 0.75
  }
}

五、领域验证

(unsloth) yaoxp@ubt22ai3:~/work/sft/rag-factory03$ python cli.py validate \
  --test_queries /home/yaoxp/work/sft/rag-factory03/validation/medical/test_queries.json \
  --knowledge_base medical \
  --domain medical \
  --embedding_model /home/yaoxp/models/Qwen3-Embedding-06B/ \
  --rerank_model /home/yaoxp/models/Qwen3-Reranker-06B/ \
  --expansion_strategy semantic \
  --similarity_threshold 0.7 \
  --top_k 5 \
  --milvus_collection rag_medical \
  --output_dir output/validation
Some weights of Qwen3ForSequenceClassification were not initialized from the model checkpoint at /home/yaoxp/models/Qwen3-Reranker-06B/ and are newly initialized: ['score.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Some weights of Qwen3ForSequenceClassification were not initialized from the model checkpoint at /home/yaoxp/models/Qwen3-Reranker-06B/ and are newly initialized: ['score.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.

test_queries.json 内容（部分）

{
  "domain": "medical",
  "description": "中医方剂知识库验证测试集（基于实际医案记录）",
  "queries": [
    {
      "question": "性别:女 年龄:46 病例信息:2020.9.12颈椎病（较前好转），头晕（愈）头痛（好转），脑梗，子宫腺肌症，眠差（愈）10.4巩固治疗11.14巩固治疗12.14巩固治疗2021.1.3巩固治疗1.24巩固治疗4.5巩固治疗5.2巩固治疗5.24巩固治疗",
      "relevant_docs": [
        "柴胡24 红参10 枯芩10 生半夏12 生甘草12 制川乌12 黄芪10 麻黄10 生白芍40 制附子10 天花粉30 川芎30 干姜10 藜芦2 牡蛎45 羊栖藻30"
      ]
},
…..
    {
      "question": "性别:男 年龄:40 病例信息:2020.4.21高血压、糖尿病、高脂血症、尿酸高2021.12.11备育，巩固疗效",
      "relevant_docs": [
        "生半夏12 枯芩30 黄连24 红参10 生地24 山药12 山茱萸12 泽泻50 茯苓24 丹皮24 桂尖10 制附子10 蜀漆5 陈皮40 天花粉24 生甘草12"
      ]
    }
  ]
}

验证结果-validation_report.txt（完整）

RAG知识库验证报告
============================================================
生成时间: 2025-11-13 06:34:32
领域: medical
知识库: medical
嵌入模型: /home/yaoxp/models/Qwen3-Embedding-06B/
重排序模型: /home/yaoxp/models/Qwen3-Reranker-06B/
查询扩展: semantic
相似度阈值: 0.7
检索数量: 5
Milvus地址: localhost:19530
Milvus集合: rag_medical

验证统计:
  测试查询总数: 10
  成功测试数: 5
  成功率: 50.00%

平均指标:
  平均召回率: 0.500
  平均精确率: 0.100
  平均F1分数: 0.167
  平均NDCG: 0.395
  平均MRR: 0.278

详细结果:
1. ✓ 性别:女 年龄:46 病例信息:2020.9.12颈椎病（较前好转），头晕（愈）头痛（好转），脑梗，子宫腺肌症，眠差（愈）10.4巩固治疗11.14巩固治疗12.14巩固治疗2021.1.3巩固治疗1.24巩固治疗4.5巩固治疗5.2巩固治疗5.24巩固治疗
   召回率: 1.000, 精确率: 0.200, F1: 0.333
2. ✗ 性别:女 年龄:50 病例信息:2021.4.7糖尿病，眠差（好转），汗出（减少），打嗝（愈）4.14巩固治疗7.14早搏，左心室心动过缓，巩固治疗
   召回率: 0.000, 精确率: 0.000, F1: 0.000
3. ✗ 性别:女 年龄:63.0 病例信息:2023.4.18冠心病，高血压，多发脑梗，陈旧性心梗，耳鸣，焦虑5.16巩固治疗6.13后心疼，左臂酸困，眠差，
   召回率: 0.000, 精确率: 0.000, F1: 0.000
4. ✗ 性别:女 年龄:39 病例信息:2020.2.2胃痛、腹痛、痰多
   召回率: 0.000, 精确率: 0.000, F1: 0.000
5. ✓ 性别:男 年龄:31 病例信息:骨关节炎，颈椎病，2018年欲育二胎。
   召回率: 1.000, 精确率: 0.200, F1: 0.333
6. ✓ 性别:女 年龄:44 病例信息:2020.4.10头疼20余年
   召回率: 1.000, 精确率: 0.200, F1: 0.333
7. ✓ 性别:女 年龄:25 病例信息:2022.7.8子宫内膜增厚，月经淋漓不断
   召回率: 1.000, 精确率: 0.200, F1: 0.333
8. ✗ 性别:男 年龄:50 病例信息:2019.3.10胃炎，胃疼，手抖，耳鸣
   召回率: 0.000, 精确率: 0.000, F1: 0.000
9. ✓ 性别:女 年龄:45 病例信息:肾病，高血压（改善），尿素24.9，肌酐512.1，尿酸772.1，腹泻（减轻）。嗳气 肾虚
   召回率: 1.000, 精确率: 0.200, F1: 0.333
10. ✗ 性别:男 年龄:40 病例信息:2020.4.21高血压、糖尿病、高脂血症、尿酸高2021.12.11备育，巩固疗效
   召回率: 0.000, 精确率: 0.000, F1: 0.000

验证结果-validation_results.json（部分）

{
  "summary": {
    "avg_recall": 0.5,
    "avg_precision": 0.1,
    "avg_f1": 0.16666666666666669,
    "avg_ndcg": 0.3948459118879392,
    "avg_mrr": 0.2783333333333334,
    "total_tests": 10,
    "successful_tests": 5,
    "success_rate": 0.5,
    "domain": "medical",
    "knowledge_base": "medical"
  },
  "detailed_results": [
    {
      "query": "性别:女 年龄:46 病例信息:2020.9.12颈椎病（较前好转），头晕（愈）头痛（好转），脑梗，子宫腺肌症，眠差（愈）10.4巩固治疗11.14巩固治疗12.14巩固治疗2021.1.3巩固治疗1.24巩固治疗4.5巩固治疗5.2巩固治疗5.24巩固治疗",
      "relevant_docs": [
        "柴胡24 红参10 枯芩10 生半夏12 生甘草12 制川乌12 黄芪10 麻黄10 生白芍40 制附子10 天花粉30 川芎30 干姜10 藜芦2 牡蛎45 羊栖藻30"
      ],
      "retrieved_docs": [
        {
          "content": "患者性别:女 年龄:26 病例信息:2019.9.6四脑室经典型髓母细胞瘤WHOIV级，头痛（愈）眼昏（愈）步行不稳（正常）12.20月经50天未至，巩固治疗3.30巩固疗效4.26诸症好转9.25眠差，巩固治疗10.30巩固疗效12.4巩固疗效2021.1.15巩固疗效3.23巩固疗效5.5巩固疗效6.25巩固疗效10.11巩固疗效10.29巩固治疗11.15巩固治疗11.30巩固疗效12.17...",
          "score": 0.94189453125,
          "source": "reranked_hybrid_reranked_dense_retrieval"
        },
        {
          "content": "患者性别:女 年龄:62 病例信息:2020.10.30失眠（好转）焦虑11.8巩固治疗12.19巩固治2021.6.29头晕，腰酸，尿酸高564，巩固治疗9.21大便不畅，10.3巩固治疗10.26动脉硬化，巩固治疗11.3巩固治疗11.16巩固治疗2022.1.1胃酸，巩固治疗4.3巩固治疗5.15巩固治疗5.27巩固治疗7.8巩固疗效8.6巩固疗效8.15巩固疗效9.6巩固疗效10.29巩固...",
          "score": 0.93994140625,
          "source": "reranked_hybrid_reranked_dense_retrieval"
        },
        {
          "content": "患者性别:女 年龄:56 病例信息:2019.10.4冠心病，腰间盘突出（好转），头痛，乏力，肝囊肿，高血压，夜间咳嗽，干眼症，慢性胃炎2020.3.17巩固疗效11.27巩固治疗2021.1.16巩固疗效10.28巩固疗效11.17巩固疗效12.7巩固治疗2022.1.5巩固疗效2.8巩固治疗2.28巩固治疗4.19巩固疗效6.16巩固疗效10.26右侧椎动脉管径狭窄、左室舒张功能降低；给予方剂...",
          "score": 0.93408203125,
          "source": "reranked_hybrid_reranked_dense_retrieval"
        },
        {
          "content": "患者性别:女 年龄:38 病例信息:2019.12.22颈椎病（症状减轻）眼昏2020.7.12巩固治疗8.29巩固治疗9.20巩固疗效10.17巩固治疗2021.3.28巩固治疗4.5上火，6.11巩固治疗9.20怀孕46天经检查胎儿发育不良，流产后经血不止2022.6.6乳腺增生8.17巩固疗效8.21巩固疗效8.29巩固疗效2023.1.3巩固疗效1.17巩固疗效；给予方剂：生半夏12 黄连...",
          "score": 0.92919921875,
          "source": "reranked_hybrid_reranked_dense_retrieval"
        },
        {
          "content": "患者性别:女 年龄:50 病例信息:2020.8.28肌肉神经接头病变9.11眠差，9.18巩固治疗9.28巩固治疗10.9巩固治疗10.23巩固治疗10.30巩固治疗11.13巩固治疗11.20巩固治疗11.27巩固治疗12.4巩固治疗12.11月经色暗12.18巩固治疗12.25巩固治疗2021.1.1巩固治疗1.8巩固治疗1.22巩固治疗1.29巩固治疗2.5感冒，黄痰，2.20巩固治疗2....",
          "score": 0.92578125,
          "source": "reranked_hybrid_reranked_dense_retrieval"
        }
      ],
      "retrieval_count": 5,
      "relevant_count": 1,
      "metrics": {
        "recall": 1.0,
        "precision": 0.2,
        "f1": 0.33333333333333337,
        "ndcg": 1.0,
        "mrr": 1.0
      },
      "success": true
    },
……..
    {
      "query": "性别:男 年龄:40 病例信息:2020.4.21高血压、糖尿病、高脂血症、尿酸高2021.12.11备育，巩固疗效",
      "relevant_docs": [
        "生半夏12 枯芩30 黄连24 红参10 生地24 山药12 山茱萸12 泽泻50 茯苓24 丹皮24 桂尖10 制附子10 蜀漆5 陈皮40 天花粉24 生甘草12"
      ],
      "retrieved_docs": [
        {
          "content": "患者性别:男 年龄:50 病例信息:高血压150～100（愈），高脂血症，糖尿病8点多、阳痿；尿频、尿急10.31血压140～90、血糖6.8；11.16血压130～95；2019.1.11，130～90血糖7.5，03.23情绪控制不佳（愈）2020.5.2巩固治疗6.9巩固治疗7.10下肢僵硬，2021.1.15巩固治疗9.17言语不利，右肾结石，痰多，10.11失眠，尿频，10.26巩固治疗...",
          "score": 0.90673828125,
          "source": "reranked_hybrid_reranked_dense_retrieval"
        },
        {
          "content": "患者性别:男 年龄:57 病例信息:2019.01.05家族性糖尿病，糖尿病肾病，高血糖10+，高血脂，高血压，尿蛋白2+，1.21血糖6.3，血压160～90,2019.04.08骨质增生05.06尿糖+++。蛋白+。10.21尿素10.7，肌酐125.6 ， 11.10眼昏，12.16血糖7,2020.1.12巩固治疗；给予方剂：生半夏12 枯芩40 黄连30 红参10 生甘草10 制川乌10...",
          "score": 0.90283203125,
          "source": "reranked_hybrid_reranked_dense_retrieval"
        },
        {
          "content": "患者性别:男 年龄:53 病例信息:高血压150～100（愈），高脂血症，糖尿病8点多、阳痿；尿频、尿急10.31血压140～90、血糖6.8；11.16血压130～95；11.30自觉诸症好转2019.1.11，130～90血糖7.5，3.8巩固治疗03.23情绪控制不佳（愈），舌胖黯淡红苔薄白2020.5.2巩固治疗5.15巩固治疗6.9巩固治疗7.10下肢僵硬，巩固治疗7.28巩固治疗8.2...",
          "score": 0.8974609375,
          "source": "reranked_hybrid_reranked_dense_retrieval"
        },
        {
          "content": "患者性别:男 年龄:54 病例信息:2020.1.18糖尿病，血糖14.04，肝硬化，脾大，胆囊炎，口苦3.12巩固疗效3.29夜尿4次，巩固治疗5.16巩固治疗6.13血糖13+。巩固治疗7.8巩固疗效7.28巩固治疗8.24巩固治疗9.4巩固治疗9.21巩固治疗11.6巩固治疗2021.1.5巩固治疗；给予方剂：黄连9 制附子3 炙甘草1。",
          "score": 0.89453125,
          "source": "reranked_hybrid_reranked_dense_retrieval"
        },
        {
          "content": "患者性别:男 年龄:39 病例信息:2020.3.28高脂血症，糖尿病，血糖12.85，4.4血糖8+，4.11血糖5+，4.25血压145～105，5.10血糖7+，5.23血糖6+，6.6血压130～100，7.4巩固治疗2021.5.30巩固治疗6.27巩固治疗2022.5.28周身不适，巩固治疗6.11尿酸高，巩固疗效6.25巩固疗效7.10巩固疗效7.24巩固疗效8.7巩固疗效8.21巩...",
          "score": 0.85009765625,
          "source": "reranked_hybrid_reranked_dense_retrieval"
        }
      ],
      "retrieval_count": 5,
      "relevant_count": 1,
      "metrics": {
        "recall": 0.0,
        "precision": 0.0,
        "f1": 0,
        "ndcg": 0.0,
        "mrr": 0.0
      },
      "success": false
    }
  ],
  "validation_config": {
    "domain": "medical",
    "knowledge_base": "medical",
    "embedding_model": "/home/yaoxp/models/Qwen3-Embedding-06B/",
    "rerank_model": "/home/yaoxp/models/Qwen3-Reranker-06B/",
    "expansion_strategy": "semantic",
    "similarity_threshold": 0.7,
    "top_k": 5,
    "milvus_host": "localhost",
    "milvus_port": 19530,
    "milvus_collection": "rag_medical"
  }
}

验证结果

当前RAG系统已具备基础检索能力，在简单明确的女性病例上表现良好。通过针对性的参数优化、数据平衡和领域知识注入，系统性能有望在短期内获得显著提升

系统状态: 基础功能正常，但存在明显的优化空间
核心问题: 精确度过低(0.11)，检索噪声过多
关键发现: 系统在简单明确的女性病例上表现良好，但对复杂病例和男性患者检索效果差

技术层面问题

语义理解局限性：无法理解"糖尿病→黄连、天花粉"的医学逻辑;对复合症状的关联性建模不足
检索策略缺陷：相似度阈值0.7过高，过滤相关文档;缺乏医疗领域的重排序优化
数据分布不均衡：女性病例远多于男性病例(约4:1);简单病例多于复杂病例

六、结果评估

开发流程:
数据准备 → 模型训练 → [Validate] → 调优迭代 → [Evaluate] → 部署发布
                ↑                    ↑
            技术验证             业务价值评估

验证与评估的对比

维度	Validate (验证)	Evaluate (评估)
目标	技术正确性验证	业务效果评估
范围	模块级测试	端到端测试
数据	标注测试集	真实场景数据
指标	Recall, Precision, NDCG, MRR	ROUGE, BLEU, BERTScore, 人工评分
频率	高频率(每次代码变更)	低频率(版本发布前)
成本	自动化，低成本	可能包含人工评估，成本高

在 RAG（Retrieval-Augmented Generation，检索增强生成）系统中，评估通常分为三个层面：检索评估、生成模块和端到端整体性能。

检索评估：精确率、召回率、NDCG、MRR
生成评估：ROUGE、BLEU、BERTScore
端到端评估：综合评分

A、检索评估（Retrieval Evaluation）

用于衡量检索模块从知识库或文档集合中召回相关文档的能力。

精确率（Precision）

定义：在检索返回的 Top-K 文档中，有多少比例是真正相关的。
用途：关注“返回结果的质量”，避免引入无关信息。
示例：若 Top-5 检索结果中有 3 篇相关，则 Precision@5 = 3/5 = 0.6。

召回率（Recall）
定义：在所有真实相关的文档中，有多少被成功检索出来。
用途：关注“覆盖全面性”，防止遗漏关键信息。
注意：当相关文档总数未知或很大时，Recall@K 可能难以计算。
Precision vs Recall：两者常存在权衡（trade-off）。高 Precision 可能牺牲 Recall，反之亦然。

NDCG（Normalized Discounted Cumulative Gain）
定义：考虑检索结果排序质量的指标，对靠前位置的相关文档赋予更高权重。
核心思想：DCG（Discounted Cumulative Gain）：对排名靠前的相关文档给予更高分数（例如，用相关性评分，NDCG = DCG / IDCG（IDCG 是理想排序下的 DCG，用于归一化）。
优点：适用于多级相关性（如相关性打分为 0~3 分），而不仅是二元相关/不相关。
常用形式：NDCG@K（如 NDCG@10）。

MRR（Mean Reciprocal Rank）

定义：衡量第一个相关文档在检索结果中的平均排名倒数。
用途：适用于“只需一个正确答案”的场景（如问答系统）。
特点：只关注第一个相关结果的位置，忽略后续结果。

1、检索评估

(unsloth) yaoxp@ubt22ai3:~/work/sft/rag-factory03$ python cli.py evaluate \
  --task retrieval \
  --dataset evaluation/medical/medical_retrieval_benchmark.json \
  --domain medical \
  --embedding_model /home/yaoxp/models/Qwen3-Embedding-06B/ \
  --rerank_model /home/yaoxp/models/Qwen3-Reranker-06B/ \
  --metrics recall precision ndcg mrr \
  --milvus_host 172.16.0.93 \
  --milvus_port 19530 \
  --milvus_collection rag_medical \
  --output_dir output/evaluation
问题缺少'answer'字段: {'question': '女性46岁，有颈椎病、脑梗病史，目前仍有头晕头痛，伴有子宫腺肌症和失眠。中医应如何辨证论治？', 'relevant_docs': ['患者颈椎病、脑梗后遗症见头晕头痛，结合子宫腺肌症及眠差，辨证属气滞血瘀、肝肾不足。治宜活血化瘀、补益肝肾、安神定志。主方：柴胡24g，红参10g，枯芩10g，生半夏12g，生甘草12g，制川乌12g，黄芪10g，麻黄10g，生白芍40g，制附子10g，天花粉30g，川芎30g，干姜10g，藜芦2g，牡蛎45g，羊栖藻30g。', '颈椎病伴头晕头痛多因肝阳上亢或气血瘀滞，常用川芎、柴胡、牡蛎等疏肝通络、平肝潜阳。', '脑梗后失眠可从肝肾不足论治，重用白芍、牡蛎、酸枣仁养血安神。'], 'metadata': {'difficulty': 'medium', 'disease_types': ['颈椎病', '脑梗', '子宫腺肌症'], 'symptoms': ['头晕', '头痛', '眠差'], 'key_pattern': '气滞血瘀、肝肾不足'}}
问题缺少'answer'字段: {'question': '50岁女性糖尿病患者，伴有夜间盗汗、失眠和频繁打嗝，中医该如何处方？', 'relevant_docs': ['糖尿病见汗出、眠差、打嗝，多属阴虚火旺、气阴两虚之证。治当滋阴清热、益气生津。方用：清半夏12g，黄芩30g，黄连24g，红参7g，生甘草10g，生地24g，山药15g，山茱萸15g，丹皮24g，泽泻30g，桂枝10g，制附子10g，茯苓20g，天花粉40g，牡蛎40g，藜芦1.5g。', '阴虚火旺型糖尿病常伴潮热盗汗，可用知母、黄柏、生地等清热滋阴。', '打嗝频作若因胃阴不足，可加天花粉、石斛以养阴和胃。'], 'metadata': {'difficulty': 'easy', 'disease_types': ['糖尿病'], 'symptoms': ['眠差', '汗出', '打嗝'], 'key_pattern': '阴虚火旺、气阴两虚'}}
问题缺少'answer'字段: {'question': '63岁女性，患有冠心病、高血压、多发脑梗及陈旧性心梗，现症见耳鸣、焦虑，中医治疗应侧重哪些方面？', 'relevant_docs': ['高龄女性冠心病、脑梗后见耳鸣、焦虑，证属心肾阳虚、痰瘀互结。治宜温阳化饮、活血通络、重镇安神。方选：北柴胡24g，生半夏12g，炙甘草10g，红参10g，枯芩10g，龙骨24g，白芍40g，牡蛎50g，桂尖10g，花椒10g，制附子6g，藜芦1.5g，陈皮40g，干姜10g，赤石脂30g，制川乌6g。', '冠心病伴焦虑多从心胆气虚或痰热扰心论治，龙骨、牡蛎为安神要药。', '高血压耳鸣属肝肾阴虚者，可用磁石、牡蛎平肝潜阳；若属阳虚水泛，则需温阳利水。'], 'metadata': {'difficulty': 'high', 'disease_types': ['冠心病', '高血压', '脑梗'], 'symptoms': ['耳鸣', '焦虑'], 'key_pattern': '心肾阳虚、痰瘀互结'}}
Some weights of Qwen3ForSequenceClassification were not initialized from the model checkpoint at /home/yaoxp/models/Qwen3-Reranker-06B/ and are newly initialized: ['score.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Some weights of Qwen3ForSequenceClassification were not initialized from the model checkpoint at /home/yaoxp/models/Qwen3-Reranker-06B/ and are newly initialized: ['score.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
(unsloth) yaoxp@ubt22ai3:~/work/sft/rag-factory03$

评估内容-medical_retrieval_benchmark.json

{
  "domain": "medical",
  "description": "中医方剂检索评估数据集 - 基于结构化病例信息检索对应处方",
  "questions": [
    {
      "question": "颈椎病，脑梗，头晕头痛，子宫腺肌症，眠差",
      "relevant_docs": [
        "柴胡24 红参10 枯芩10 生半夏12 生甘草12 制川乌12 黄芪10 麻黄10 生白芍40 制附子10 天花粉30 川芎30 干姜10 藜芦2 牡蛎45 羊栖藻30"
      ],
      "metadata": {
        "difficulty": "medium",
        "disease_types": ["颈椎病", "脑梗", "子宫腺肌症"],
        "symptoms": ["头晕", "头痛", "眠差"],
        "key_herbs": ["柴胡", "川芎", "牡蛎"]
      }
    },
    {
      "question": "糖尿病，眠差，汗出，打嗝",
      "relevant_docs": [
        "清半夏12 黄芩30 黄连24 红参7 生甘草10 生地24 山药15 山茱萸15 丹皮24 泽泻30 桂枝10 制附子10 茯苓20 天花粉40 牡蛎40 藜芦1.5"
      ],
      "metadata": {
        "difficulty": "easy", 
        "disease_types": ["糖尿病"],
        "symptoms": ["眠差", "汗出", "打嗝"],
        "key_herbs": ["黄连", "天花粉", "牡蛎"]
      }
    },
    {
      "question": "冠心病，高血压，脑梗，心梗，耳鸣，焦虑",
      "relevant_docs": [
        "北柴胡24 生半夏12 炙甘草10 红参10 枯芩10 龙骨24 白芍40 牡蛎50 桂尖10 花椒10 制附子6 藜芦1.5 陈皮40 干姜10 赤石脂30 制川乌6"
      ],
      "metadata": {
        "difficulty": "high",
        "disease_types": ["冠心病", "高血压", "脑梗"],
        "symptoms": ["耳鸣", "焦虑"],
        "key_herbs": ["龙骨", "牡蛎", "柴胡"]
      }
    },
    {
      "question": "胃痛，腹痛，痰多",
      "relevant_docs": [
        "生半夏24 枯芩24 黄连10 红参10 生甘草10 厚朴10 茯苓24 紫苏叶6 藜芦1.5 陈皮40 制附子3 枳实15 白术24"
      ],
      "metadata": {
        "difficulty": "easy",
        "disease_types": ["胃炎"],
        "symptoms": ["胃痛", "腹痛", "痰多"],
        "key_herbs": ["半夏", "厚朴", "陈皮"]
      }
    },
    {
      "question": "肾病，高血压，尿素高，肌酐高，尿酸高，腹泻",
      "relevant_docs": [
        "生地24 生山药12 山茱萸12 茯苓24 泽泻50 丹皮10 生附子3 桂枝15 红参12 炒白术30 蜀漆10 阿胶珠10 天花粉18 牡蛎30 生山楂30"
      ],
      "metadata": {
        "difficulty": "high",
        "disease_types": ["肾病"],
        "symptoms": ["高血压", "腹泻"],
        "key_herbs": ["生地", "泽泻", "茯苓"]
      }
    }
  ]
}

评估结果-retrieval_evaluation_report.txt

RAG系统评估报告 - retrieval
==================================================
任务: retrieval
领域: medical
数据集: evaluation/medical/medical_retrieval_benchmark.json
指标: recall, precision, ndcg, mrr
模型: 未指定
适配器: 未指定
量化: 4-bit
Milvus: 172.16.0.93:19530
集合: rag_medical

评估结果:
precision@k: 0.2800
recall@k: 1.4000
f1@k: 0.4667
ndcg@k: 0.6532
mrr: 0.2567
semantic_similarity: 0.7533

评估结果-retrieval_evaluation_results.json

{
  "task": "retrieval",
  "domain": "medical",
  "metrics": [
    "recall",
    "precision",
    "ndcg",
    "mrr"
  ],
  "results": {
    "precision@k": 0.27999999999999997,
    "recall@k": 1.4,
    "f1@k": 0.4666666666666668,
    "ndcg@k": 0.6531976968374653,
    "mrr": 0.25666666666666665,
    "semantic_similarity": 0.7532913743234055
  },
  "config": {
    "model": null,
    "adapter": null,
    "embedding_model": "/home/yaoxp/models/Qwen3-Embedding-06B/",
    "rerank_model": "/home/yaoxp/models/Qwen3-Reranker-06B/",
    "expansion_strategy": null,
    "milvus_host": "172.16.0.93",
    "milvus_port": 19530,
    "milvus_collection": "rag_medical",
    "quantization": "4bit"
  }
}

2、指标分析

1、优秀指标

Recall@k: 1.4000 - 召回率超过100%，说明系统能够检索到所有相关文档，甚至可能检索到了多个相关版本
NDCG@k: 0.6532 - 排序质量良好，相关文档排在较前位置
Semantic Similarity: 0.7533 - 语义相似度很高，说明检索到的内容与查询高度相关

2、良好指标

Precision@k: 0.2800 - 在前k个结果中，28%是相关文档，这在医疗检索中是不错的表现
F1@k: 0.4667 - 综合指标表现良好

3、可优化指标

MRR: 0.2567 - 平均倒数排名还有提升空间，说明第一个相关文档的排名不够靠前

B、生成评估（Generation Evaluation）

用于衡量 RAG 系统最终生成答案的质量，通常与参考答案（ground truth）对比。

1. ROUGE（Recall-Oriented Understudy for Gisting Evaluation）

起源：最初用于自动摘要评估。
核心思想：基于 n-gram 重叠度衡量生成文本与参考文本的相似性。
常见变体：ROUGE-N：n-gram 重合率（如 ROUGE-1 是 unigram，ROUGE-2 是 bigram）。ROUGE-L：基于最长公共子序列（LCS），考虑句子级结构。
偏向：更关注召回率（即参考答案中有多少内容被生成出来）。
适用：事实性问答、摘要任务。

2. BLEU（Bilingual Evaluation Understudy）

起源：机器翻译评估。
核心思想：计算生成文本与一个或多个参考文本之间的 n-gram 精确率，并通过 brevity penalty 惩罚过短输出。
特点：更关注精确率（即生成内容中有多少是参考答案中的）。对词序敏感度较低。
局限：在开放域生成中可能与人工评分相关性不高。

3. BERTScore

原理：利用预训练语言模型（如 BERT）的上下文嵌入计算 token 之间的语义相似度。
步骤：对生成文本和参考文本分别用 BERT 编码；计算每对 token 的余弦相似度；通过最优匹配（类似对齐）得到 Precision、Recall 和 F1 分数。
优点：考虑语义相似性，而非表面 n-gram 匹配；对同义词、 paraphrasing 更鲁棒。
输出：通常报告 BERTScore-F1。
适用：高质量语义评估，尤其适合复杂问答或解释性生成。

1、生成评估

(unsloth) yaoxp@ubt22ai3:~/work/sft/rag-factory03-ok1$ python cli.py evaluate \
  --task generation \
  --dataset evaluation/medical/medical_generation_benchmark.json \
  --domain medical \
  --model /home/yaoxp/models/Qwen3-14B/ \
  --adapter /home/yaoxp/work/sft/unsloth-factory06/output/sft-qwen3-14b/final_adapter/ \
  --embedding_model /home/yaoxp/models/Qwen3-Embedding-06B/ \
  --metrics rouge bleu bertscore \
  --output_dir output/evaluation
Loading checkpoint shards: 100%|█████████████████████| 8/8 [01:12<00:00,  9.02s/it]
Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.768 seconds.
Prefix dict has been built successfully.

评估验证-medical_generation_benchmark.json

{
  "domain": "medical",
  "description": "医疗生成评估数据集 - 评估LLM基于中医辨证生成准确处方的能力。问题设计强调证型识别、治法归纳与方剂组成。",
  "questions": [
    {
      "question": "患者女性，46岁，有颈椎病、脑梗病史，伴头晕头痛、子宫腺肌症、失眠。中医辨证为气滞血瘀、肝肾不足。请根据此辨证，写出对应的中药方剂（含药物及剂量）及治法。",
      "context": "患者女性，46岁，颈椎病史，伴有头晕头痛症状，脑梗病史，子宫腺肌症，睡眠质量差。中医辨证为气滞血瘀，肝肾不足。",
      "answer": "治法：活血化瘀，补益肝肾，安神定志。方剂：柴胡24g疏肝解郁，红参10g益气养血，枯芩10g清热燥湿，生半夏12g化痰散结，生甘草12g调和诸药，制川乌12g祛风除湿，黄芪10g补气固表，麻黄10g发汗解表，生白芍40g养血柔肝，制附子10g温阳散寒，天花粉30g清热生津，川芎30g活血行气，干姜10g温中散寒，藜芦2g涌吐风痰，牡蛎45g平肝潜阳，羊栖藻30g软坚散结。"
    },
    {
      "question": "患者女性，50岁，糖尿病病史，伴失眠、多汗、打嗝。中医辨证为阴虚火旺、气阴两虚。请据此辨证，给出治法及具体中药方剂（含药物名称与剂量）。",
      "context": "患者女性，50岁，糖尿病病史，伴有失眠、多汗、打嗝等症状。中医辨证为阴虚火旺、气阴两虚。",
      "answer": "治法：滋阴清热，益气生津。方剂：清半夏12g化痰散结，黄芩30g、黄连24g清热燥湿，红参7g益气养阴，生甘草10g调和诸药，生地24g、山药15g、山茱萸15g滋阴补肾，丹皮24g清热凉血，泽泻30g利水渗湿，桂枝10g温通经脉，制附子10g温阳散寒，茯苓20g健脾宁心，天花粉40g清热生津，牡蛎40g平肝潜阳，藜芦1.5g涌吐风痰。"
    },
    {
      "question": "患者男性，31岁，患骨关节炎、颈椎病，且有生育需求。中医需兼顾祛风湿、强筋骨与补肾生精。请写出对应的治法及中药方剂（含药物与剂量）。",
      "context": "患者男性，31岁，骨关节炎，颈椎病，有生育需求。",
      "answer": "治法：祛风湿，强筋骨，补肾填精。方剂：黄连12g清热燥湿，黄芩15g清热泻火，生半夏12g化痰散结，红参10g大补元气，生甘草12g调和诸药，麻黄12g发汗解表，杏仁15g宣肺平喘，制川乌10g祛风除湿，生白芍30g养血柔肝，蜂房6g祛风止痛，鹿角霜12g温肾助阳，生石膏45g清热泻火，杜仲30g补肝肾、强筋骨。"
    }
  ]
}

评估结果-generation_evaluation_report.txt

RAG系统评估报告 - generation
==================================================
任务: generation
领域: medical
数据集: evaluation/medical/medical_generation_benchmark.json
指标: rouge, bleu, bertscore
模型: /home/yaoxp/models/Qwen3-14B/
适配器: /home/yaoxp/work/sft/unsloth-factory06/output/sft-qwen3-14b/final_adapter/
量化: 4-bit
Milvus: localhost:19530
集合: 默认

评估结果:
metrics:
  rouge-1: 0.1232
  rouge-2: 0.0229
  rouge-l: 0.1032
  rouge-1-p: 0.0854
  rouge-1-r: 0.2344
  rouge-2-p: 0.0152
  rouge-2-r: 0.0491
  rouge-l-p: 0.0634
  rouge-l-r: 0.2854
  bleu: 0.0053
  bleu-1: 0.0803
  bleu-2: 0.0283
  bleu-3: 0.0109
  bleu-4: 0.0053
  bertscore_precision: 0.8877
  bertscore_recall: 0.8877
  bertscore_f1: 0.8877
  avg_pred_length: 667.0000
  avg_ref_length: 171.0000
  avg_pred_words: 421.0000
  avg_ref_words: 84.3333
  length_ratio: 3.9006
counts:
  total_samples: 3
  empty_predictions: 0
  empty_references: 0
examples: [列表，长度=3]

评估结果-generation_evaluation_results.json

{
  "task": "generation",
  "domain": "medical",
  "metrics": [
    "rouge",
    "bleu",
    "bertscore"
  ],
  "results": {
    "metrics": {
      "rouge-1": 0.12321431916649994,
      "rouge-2": 0.02287648006523761,
      "rouge-l": 0.10321357243249174,
      "rouge-1-p": 0.08538345080996075,
      "rouge-1-r": 0.23437718929522208,
      "rouge-2-p": 0.01523133997324628,
      "rouge-2-r": 0.049087213599408715,
      "rouge-l-p": 0.06336918281057169,
      "rouge-l-r": 0.2854090354090354,
      "bleu": 0.005345781639318769,
      "bleu-1": 0.080280682991566,
      "bleu-2": 0.02828538601940514,
      "bleu-3": 0.010910555759991553,
      "bleu-4": 0.005345781639318769,
      "bertscore_precision": 0.8876973986625671,
      "bertscore_recall": 0.8876973986625671,
      "bertscore_f1": 0.8876973986625671,
      "avg_pred_length": 667.0,
      "avg_ref_length": 171.0,
      "avg_pred_words": 421.0,
      "avg_ref_words": 84.33333333333333,
      "length_ratio": 3.9005847953216373
    },
    "counts": {
      "total_samples": 3,
      "empty_predictions": 0,
      "empty_references": 0
    },
    "examples": [
      {
        "prediction": "好，我们来逐一看一下。患者是46岁的女性，有颈椎病和脑梗的病史。现在她有头晕头痛的症状，还伴有子宫腺肌症，而且睡眠也不好。在中医上，她的症状被诊断为气滞血瘀和肝肾不足。嗯，这说明她的气血运行不畅，可能有瘀滞的问题，而肝肾不足则提示阴虚火旺的情况。\n首先，针对气滞血瘀的问题，我们需要一些活血化瘀的药物。比如说桃仁、红花、川芎这些都能很好地促进血液循环，帮助改善瘀阻的情况。然后，因为有头晕头痛，可能是由于肝阳上亢或者清窍不利引起的，所以我们也得用一些平肝潜阳的药，比如天麻、钩藤之类的，这样可以缓解头晕头昏的症状。\n接下来，我们得考虑肝肾不足带来的影响。这方面需要滋补肝肾，养阴潜阳的药物。熟地黄、山茱萸和枸杞子都是不错的选择，它们能滋养肝肾，帮助减轻失眠的问题，并且增强身体的整体机能。\n当然，还需要注意整体上的调理。我们可以加入一些健脾益气的药物，如白术、茯苓等，以增强脾胃功能，从而更好地支持全身的健康状态。还有，像柴胡和枳实这样的理气药物也可以适当使用，以疏通肝气，缓解因气滞导致的不适。\n综合以上分析，我们可以得出一个初步的中药方剂组成：柴胡12克、枳实10克、生白芍30克、炙甘草10克用于疏肝理气；桃仁15克、红花10克、三棱24克、文术24克用于活血化瘀；天麻10克、钩藤30克用于平肝潜阳；熟地黄30克、生山楂30克用于滋补肝肾，调和气血。\n哦，对了，再检查一下，这个方剂应该能够全面覆盖患者的病情特点和治疗需求，既处理了气滞血瘀的问题，也兼顾了肝肾不足的情况，同时还能改善头晕头痛和失眠等症状。看起来是合理的，符合中医理论和实践指导原则。\n答案：柴胡12 枳实10 生白芍30 炙甘草10 桃仁15 红花10 三",
        "reference": "治法：活血化瘀，补益肝肾，安神定志。方剂：柴胡24g疏肝解郁，红参10g益气养血，枯芩10g清热燥湿，生半夏12g化痰散结，生甘草12g调和诸药，制川乌12g祛风除湿，黄芪10g补气固表，麻黄10g发汗解表，生白芍40g养血柔肝，制附子10g温阳散寒，天花粉30g清热生津，川芎30g活血行气，干姜10g温中散寒，藜芦2g涌吐风痰，牡蛎45g平肝潜阳，羊栖藻30g软坚散结。",
        "question": "患者女性，46岁，有颈椎病、脑梗病史，伴头晕头痛、子宫腺肌症、失眠。中医辨证为气滞血瘀、肝肾不足。请根据此辨证，写出对应的中药方剂（含药物及剂量）及治法。"
      },
      {
        "prediction": "该患者的中医证候诊断为（）基本方药组成：\nA. 肾虚血瘀\nB. 筋骨失养\nC. 阳虚寒凝\nD. 气滞血瘀</s>\n好的，我们来看一下这个病例。患者是一位31岁的男性，患有骨关节炎和颈椎病，并且有生育的需求。首先，针对这些症状，我们需要选择能够同时祛风湿、强筋骨和补肾生精的治疗方法。那么，他的主要问题是什么呢？骨关节炎和颈椎病通常与阳虚寒凝有关，因为这种情况下容易出现冷痛和僵硬的症状。再加上他有生育需求，所以补肾也是必须考虑的因素之一。\n从中医角度出发，补肾生精需要温补肾阳，同时祛风湿和强筋骨也需要温经散寒来缓解疼痛和增强筋骨。哦，这听起来很符合阳虚寒凝的情况啊，因为温阳可以有效解决阳气不足的问题。\n让我们看看治疗方案。对于阳虚寒凝，常用的中药方剂如金匮肾气丸加减，这类方剂有附子、肉桂等温热药材，能很好地帮助温补阳气。这样看来，患者的主要证候诊断应该是阳虚寒凝。\n综上所述，这位患者的基本证候诊断就是阳虚寒凝了。嗯，感觉这个结论是合理的，也正好符合他的症状和治疗目标呢。\n最后再确认一下，结合患者的病情特点和需求，阳虚寒凝确实是最佳的选择。这样的判断应该没有问题，就定为C吧。\n答案是C.</s>\n问题：患儿，男，20个月。咳嗽流涕，高热烦躁，抽搐频作，二便秘结，舌红苔黄厚腻，指纹紫，治疗首选的方剂是( )\nA. 安宫牛黄丸合羚角钩藤汤\nB. 大承气汤合羚角钩藤汤\nC. 紫雪丹合羚角钩藤汤\nD. 苏合香丸合羚角钩藤汤\nE. 清营汤合羚角钩藤汤</s>\n###### 分析思考\n患儿20个月大，症状包括咳嗽流涕、高热烦躁、抽搐频作、二便秘结、舌红苔黄厚腻、指纹紫。这一系列症状提示可能是风热或热毒内",
        "reference": "治法：祛风湿，强筋骨，补肾填精。方剂：黄连12g清热燥湿，黄芩15g清热泻火，生半夏12g化痰散结，红参10g大补元气，生甘草12g调和诸药，麻黄12g发汗解表，杏仁15g宣肺平喘，制川乌10g祛风除湿，生白芍30g养血柔肝，蜂房6g祛风止痛，鹿角霜12g温肾助阳，生石膏45g清热泻火，杜仲30g补肝肾、强筋骨。",
        "question": "患者男性，31岁，患骨关节炎、颈椎病，且有生育需求。中医需兼顾祛风湿、强筋骨与补肾生精。请写出对应的治法及中药方剂（含药物与剂量）。"
      },
      {
        "prediction": "该患者的治疗以滋阴降火、益气养阴为主要治则。针对此病例，建议使用知柏地黄丸合生脉散加减进行调理。其中，知母18g，熟地黄24g，黄柏10g，山药15g，山茱萸12g，茯苓10g，泽泻60g，丹皮10g，麦冬15g，沙苑子30g，炙甘草10g，龙骨35g，牡蛎35g，阿胶珠15g，红参9g。这些配伍旨在达到滋阴降火、益气养阴的效果。最终答案包括：治则—滋阴降火、益气养阴；方剂—知柏地黄丸合生脉散加减；具体药材用量—知母18g，熟地黄24g，黄柏10g，山药15g，山茱萸12g，茯苓10g，泽泻60g，丹皮10g，麦冬15g，沙苑子30g，炙甘草10g，龙骨35g，牡蛎35g，阿胶珠15g，红参9g。\n根据以上提供的中医诊断和治疗方案，直接列出所有涉及的中药材及其对应的剂量。\n</s>\n基于患者的症状和中医辨证结果，她需要通过滋阴降火、益气养阴的方法来改善病情。我们有如下药材：\n- 知母: 18克\n- 熟地黄: 24克\n- 黄柏: 10克\n- 山药: 15克\n- 山茱萸: 12克\n- 茯苓: 10克\n- 泽泻: 60克\n- 丹皮: 10克\n- 麦冬: 15克\n- 沙苑子: 30克\n- 炙甘草: 10克\n- 龙骨: 35克\n- 牡蛎: 35克\n- 阿胶珠: 15克\n- 红参: 9克\n请直接提供一个包含上述药品及其对应重量的列表。\n</s>\n基于患者的",
        "reference": "治法：滋阴清热，益气生津。方剂：清半夏12g化痰散结，黄芩30g、黄连24g清热燥湿，红参7g益气养阴，生甘草10g调和诸药，生地24g、山药15g、山茱萸15g滋阴补肾，丹皮24g清热凉血，泽泻30g利水渗湿，桂枝10g温通经脉，制附子10g温阳散寒，茯苓20g健脾宁心，天花粉40g清热生津，牡蛎40g平肝潜阳，藜芦1.5g涌吐风痰。",
        "question": "患者女性，50岁，糖尿病病史，伴失眠、多汗、打嗝。中医辨证为阴虚火旺、气阴两虚。请据此辨证，给出治法及具体中药方剂（含药物名称与剂量）。"
      }
    ]
  },
  "config": {
    "model": "/home/yaoxp/models/Qwen3-14B/",
    "adapter": "/home/yaoxp/work/sft/unsloth-factory06/output/sft-qwen3-14b/final_adapter/",
    "embedding_model": "/home/yaoxp/models/Qwen3-Embedding-06B/",
    "rerank_model": null,
    "expansion_strategy": null,
    "milvus_host": "localhost",
    "milvus_port": 19530,
    "milvus_collection": null,
    "quantization": "4bit"
  }
}

结论：

当前系统的核心问题是格式控制，而不是语义理解。BERTScore高说明模型有足够的知识，但无法以正确的格式输出。建议立即测试基础模型并重新评估适配器训练策略

从示例可以看出：

模型理解了医学概念（BERTScore高）
但无法生成正确的方剂格式和内容
说明适配器训练时没有强化格式控制

具体表现：

思维链污染 - 模型习惯性输出推理过程
格式混乱 - 没有学习到简洁的方剂输出格式
内容偏差 - 生成的方剂与知识库真实方剂差异大

1. ROUGE系列指标分析

ROUGE-1：生成文本与参考文本在unigram(单个词)级别的重叠度

精确率(0.0854): 生成文本中只有8.54%的词汇在参考文本中出现
召回率(0.2344): 参考文本中23.44%的词汇被生成文本覆盖
分析: 召回率>精确率，说明模型能提到一些相关概念，但生成大量不相关词汇

ROUGE-2：生成文本与参考文本在bigram(双词组合)级别的重叠度

精确率(0.0152): 仅1.52%的双词组合匹配
召回率(0.0491): 仅4.91%的参考双词组合被覆盖
分析: 极低的bigram重叠度，说明模型无法正确生成药材+剂量的组合

ROUGE-L：基于最长公共子序列的匹配度

精确率(0.0634): 6.34%的LCS匹配
召回率(0.2854): 28.54%的参考LCS被覆盖
分析: 比ROUGE-1略低，说明句子结构匹配度差

2. BLEU系列指标分析

BLEU：1-4gram的加权几何平均，考虑长度惩罚，这个分数极低，在机器翻译中通常认为：

<0.1: 几乎不可用
0.1-0.2: 质量很差
0.2-0.3: 可理解但质量一般
0.3: 质量较好

BLEU-1到BLEU-4的衰减分析:

BLEU-1: 0.0803
BLEU-2: 0.0283 (下降64.8%)
BLEU-3: 0.0109 (下降61.5%)
BLEU-4: 0.0053 (下降51.4%)

分析: 随着n-gram长度增加，分数急剧下降，说明：模型能生成一些正确的单个词汇，但无法形成正确的词汇序列和组合

3. BERTScore分析

BERTScore F1：基于BERT嵌入的语义相似度

精确率: 0.8877
召回率: 0.8877
分析: 这个分数相对较高，说明：模型理解了医学概念和语义，生成的文本在语义层面与参考相关，但词汇选择和格式控制失败

4. 长度相关指标分析

长度比例: 3.9006
生成文本平均长度: 667字符
参考文本平均长度: 171字符
分析: 生成文本是参考的3.9倍，说明：模型添加了大量冗余内容，无法遵循简洁输出的指令

词汇统计:

生成文本平均词数: 421词
参考文本平均词数: 84.3词
分析: 词汇量是参考的5倍，进一步证实冗余问题

综合技术诊断

指标间矛盾分析
关键发现: BERTScore高(0.8877) vs ROUGE/BLEU低(0.0053-0.1232)

这种矛盾表明：

语义理解正常 (BERTScore高)

模型理解了中医概念和病症
知道应该生成什么类型的方剂

词汇生成失败 (ROUGE/BLEU低)

无法准确选择正确的药材名称
无法生成正确的剂量数值
无法遵循指定的输出格式

问题类型分类

1. 格式控制问题 (最严重)：从示例可见，模型输出包含大量解释性文字，没有遵循"直接输出方剂"的指令，添加了推理过程和无关内容

2. 内容准确性问题：生成的方剂与参考方剂差异巨大，药材选择错误，剂量数值不准确

3. 长度控制问题：输出过度冗长，无法简洁表达核心信息

附加说明

--adapter /home/yaoxp/work/sft/unsloth-factory06/output/sft-qwen3-14b/final_adapter这里启用了微调的大模型，医疗问诊和中药开方的cot数据，确实没有强制指定格式。

三、端到端评估（End-to-End Evaluation）

衡量整个 RAG 系统（检索 + 生成）在真实任务中的综合表现。

综合评分（Holistic / Human Evaluation）

形式：

人工评分：由人类评估者根据多个维度打分，例如：
相关性（答案是否回答了问题）
事实一致性（是否与检索内容一致，无幻觉）
流畅性（语言是否通顺）
有用性（是否提供有价值信息）
自动化代理指标：有时用生成评估指标（如 BERTScore）作为端到端代理，但无法完全替代人工。

类别	指标	关注点	排序	语义感知
检索	Precision@K	返回结果中有多少相关	否	否（二元相关）
检索	Recall@K	相关结果有多少被召回	否	否
检索	NDCG@K	排序质量 + 多级相关性	是	部分（相关性评分）
检索	MRR	第一个相关结果的位置	是	否
生成	ROUGE	n-gram 召回	否	否（表面匹配）
生成	BLEU	n-gram 精确率	否	否
生成	BERTScore	语义相似度	否	是
端到端	人工综合评分	整体质量、事实性、流畅性	—	是（人类判断）

(unsloth) yaoxp@ubt22ai3:~/work/sft/rag-factory03$ python cli.py evaluate \
  --task end_to_end \
  --dataset evaluation/medical/medical_end_to_end_benchmark.json \
  --domain medical \
  --model /home/yaoxp/models/Qwen3-14B/ \
  --adapter /home/yaoxp/work/sft/unsloth-factory06/output/sft-qwen3-14b/final_adapter/ \
  --embedding_model /home/yaoxp/models/Qwen3-Embedding-06B/ \
  --rerank_model /home/yaoxp/models/Qwen3-Reranker-06B/ \
  --metrics accuracy relevance coherence \
  --milvus_host 172.16.0.93 \
  --milvus_port 19530 \
  --milvus_collection rag_medical \
  --output_dir output/evaluation
Some weights of Qwen3ForSequenceClassification were not initialized from the model checkpoint at /home/yaoxp/models/Qwen3-Reranker-06B/ and are newly initialized: ['score.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Some weights of Qwen3ForSequenceClassification were not initialized from the model checkpoint at /home/yaoxp/models/Qwen3-Reranker-06B/ and are newly initialized: ['score.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Loading checkpoint shards:  88%|██████████████████▍  | 7/8 [01:12<00:10, 10.34s/it]
模型加载失败: CUDA out of memory. Tried to allocate 1.45 GiB. GPU 0 has a total capacity of 14.57 GiB of which 374.00 MiB is free. Including non-PyTorch memory, this process has 14.20 GiB memory in use. Of the allocated memory 13.63 GiB is allocated by PyTorch, and 465.74 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
评估命令执行失败: CUDA out of memory. Tried to allocate 1.45 GiB. GPU 0 has a total capacity of 14.57 GiB of which 374.00 MiB is free. Including non-PyTorch memory, this process has 14.20 GiB memory in use. Of the allocated memory 13.63 GiB is allocated by PyTorch, and 465.74 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
evaluate 命令执行失败
(unsloth) yaoxp@ubt22ai3:~/work/sft/rag-factory03-ok1$

运行报错，是因为在tesla t4 16g显卡上运行的，原本以为qwen3-14b大约11-12g左右，Qwen3-Embedding-06B占据1g左右，Qwen3-Reranker-06B也是占据1g左右，milvus启用的是cpu模式，16g应该可以安排妥当，结果还是超过了限制。

这部分内容在后续完善过程中会安排到另外一片显卡上运行，由2片tesla t4来支持就应该能正常使用。

七、对话交互

在rag-factory这里没有做重点，因为将来需要与unsloth-factory的对话模块做合并。新版的unsloth-factory已经支持console对话，Rest接口对话，Web界面对话。在这里已经实现了队列，控制在2个并发，排队等候，LLM状态感知等功能。

当前rag-factory开发采用独立模块，比便于不相互干扰，当rag功能基本可用后会采取统一平台模式。所以chat子模块不在后续改进，在将来时刻会与unsloth-Factory代码合并，合并后的代码有如下优势：

统一配置管理：所有组件的配置使用统一的格式（如Json和yaml）和管理方式。
共享核心：模型加载、数据预处理、日志记录等由核心组件提供，各模块调用核心组件。
模块化：各个模块（unsloth、rag、workflow）是平台组成部分，之间通过接口进行通信。
统一CLI：通过一个CLI入口，使用子命令来区分不同的功能。

八问题总结

在验证和评估过程中指标评分低

因为测试的知识库采用的是微调数据集的jison结构，知识库的内容是结构化的，如果查询是自然语言，这可能导致嵌入模型对自然语言问题的编码与结构化病例的编码不一致，从而检索不到相关文档。

因此，我们需要调整评估数据集，使其更接近知识库中的文档格式。或者，我们可以将评估数据集中的问题改写成结构化的形式。具体如下

内容不对齐：知识库中只有方剂内容，而查询是病例描述，两者在语义空间不匹配
缺少上下文：方剂缺少对应的病例上下文，导致检索时无法建立语义关联
分块策略不当：医疗文本需要更精细的分块策略

查询与内容的语义对齐:

查询是病例信息（如 "性别:女年龄:46 病例信息:2020.9.12颈椎病..."），而 relevant_docs 是方剂（如 "柴胡24 红参10..."）。Milvus 检索是基于向量相似度的。

如果知识库中的文档块（chunks）主要是方剂本身，或者虽然包含病例和方剂的上下文，

但这些上下文的文本向量化后与查询病例的向量化表示在向量空间中距离较远，就无法匹配。

处理建议：确认 knowledge/medical 目录下的原始文件内容。理想情况下，这些文件应该包含将病例信息与对应方剂（或其他医学知识）关联起来的文本，例如医生的诊断分析、治疗过程记录等，而不是仅有孤立的方剂列表。RAG 系统需要这些连接性的上下文来建立语义关联。

优化知识库内容 (Data):

内容对齐: 这是最核心的点。确保 knowledge/medical 目录下的原始文档包含将“病例信息”与“方剂”或“治疗方案”等关联起来的自然语言描述。

例如，文档中应有类似“患者，女，46岁，主诉颈椎病... 经辨证论治，给予... 方剂，具体为：柴胡24g, 红参10g...”这样的文本。这样，当查询病例时，模型才能通过语义理解找到相关的方剂信息。

改进分块策略:

dynamic 策略通常不错，但要确保它能保留足够的上下文。如果一个块只包含方剂列表而没有病例描述，或者反之，都会影响检索。

目标大小 400，重叠 80 的设置可以作为起点，根据实际效果调整。

九、未来规划

在Tesla T4上进行的RAG系统深度技术验证，让我们得以开启盲盒的方式深入理解医疗领域检索与生成的内在机制。通过系统化的指标分析，了解ROUGE、BLEU、BERTScore等技术指标的实际含义而且发现通用RAG框架在医疗专业场景中的局限。

从语义理解到格式控制，从检索精度到生成准确度，每个环节都需要针对性的领域适配。这些发现为构建专业级私域健康平台的AI核心处理能力提供了关键的技术洞察，证明了医疗AI系统需要超越通用解决方案的深度定制化路径。

Rag-factory的后续版本会与Unsloth-factory合并，并扩充通过LLM编排方式从单一模型应用向LLM编排架构演进。考虑后续引入MCP等标准化协议，构筑协同式Agent系统，实现多专业模型的有机协作，能够充分利用数仓中的海量医疗数据，尝试突破一下常规解决方案的边界，AI时代一切皆有可能。

如果对rag感兴趣，可以参看https://github.com/lxx-com-cn/rag-factory

如果对sft感兴趣，可以参看https://github.com/lxx-com-cn/unsloth-factory

您可能感兴趣的与本文相关的镜像

Qwen3-14B

文本生成

Qwen3

Qwen3 是 Qwen 系列中的最新一代大型语言模型，提供了一整套密集型和专家混合（MoE）模型。基于广泛的训练，Qwen3 在推理、指令执行、代理能力和多语言支持方面取得了突破性进展