RAG篇「数据集构建」保姆级教程来了！

最新推荐文章于 2025-11-28 16:18:12 发布

原创最新推荐文章于 2025-11-28 16:18:12 发布 · 2k 阅读

28 ·

CC 4.0 BY-SA版权

Datawhale干货

作者：吴锦凤，Datawhale优秀学习者

冬灵，Datawhale成员

首篇：零基础入门：DeepSeek微调教程来了！

前篇：微调篇「数据集构建」保姆级教程来了！

这次是「数据集构建」保姆级教程第二篇，会持续更新。

一、构建属于自己的知识库

检索增强生成（Retrieval Augmented Generation），简称 RAG。在构建RAG（Retrieval-Augmented Generation）的向量知识库时，数据的处理方式直接影响系统的性能和可靠性。不能随意塞入未经处理的数据，否则可能导致检索效果差、生成结果不准确甚至安全隐患。

二、构建向量知识库数据集强调事项

构建向量知识库数据集的基本步骤与微调数据集（见前篇）基本一致，但有以下注意强调事项。

数据质量直接影响结果（向量知识库数据集严禁噪声与微调不一样！！！）

问题：噪声、重复、低质数据会污染知识库，导致检索到无关内容。
解决方案：
- 清洗数据：去除HTML标签、特殊符号、乱码等噪声。
- 去重：合并相似内容，避免冗余数据干扰检索。
- 标准化：统一文本格式（如日期、单位）、大小写、标点符号。
- 质量筛选：优先保留权威来源、高可信度的内容。

数据与场景的匹配性

问题：知识库与应用场景偏离会导致检索失效。
解决方案：
- 场景过滤：仅保留与目标任务相关的数据（例如医疗场景需剔除无关行业内容）。
- 动态更新：定期增量更新数据，避免时效性内容过期。
- 冷启动优化：初期可引入人工标注的高质量种子数据。

安全与合规风险

问题：随意导入数据可能泄露敏感信息或引入偏见。
解决方案：
- 敏感信息过滤：使用NER识别并脱敏（如身份证号、电话号码）。
- 偏见检测：通过公平性评估工具（如Fairness Indicators）筛查歧视性内容。
- 权限控制：对知识库分级访问，限制敏感数据检索权限。

🌏

如果你不是使用Dify开源框架构建向量数据库，而是使用类似faiss向量数据库构建向量数据库还有以下注意事项：

1.文本分块（Chunking）需策略化

问题：随意分块可能导致语义不完整，影响向量表示。
解决方案：
- 按语义切分：使用句子边界检测、段落分割或基于语义相似度的算法（如BERT句间相似度）。
- 动态调整块大小：根据数据特性调整（例如技术文档适合较长的块，对话数据适合短块）。
- 重叠分块：相邻块保留部分重叠文本，避免关键信息被切分到边缘。

2.向量化模型的适配性

问题：直接使用通用模型可能无法捕捉领域语义。
解决方案：
- 领域微调：在领域数据上微调模型（如BERT、RoBERTa）以提升向量表征能力。
- 多模态支持：若包含图表、代码等，需选择支持多模态的模型（如CLIP、CodeBERT）。
- 轻量化部署：权衡精度与效率，可选择蒸馏后的模型（如MiniLM）。

3.索引结构与检索效率

问题：海量数据未经优化会导致检索延迟。
解决方案：
- 分层索引：对高频数据使用HNSW，长尾数据用IVF-PQ（Faiss或Milvus）。
- 元数据过滤：为数据添加标签（如时间、类别），加速粗筛过程。
- 分布式部署：按数据热度分片，结合缓存机制（如Redis）提升响应速度。

补充说明：向量知识库数据集也要是问答对？

将数据整理成问答对（QA Pair）形式是一种优化策略，而非必要步骤。但这种方式在特定场景下能显著提升检索和生成的效果。以下是其核心原因和适用场景的分析：

1. 为什么问答对形式能优化RAG？

（1）精准对齐用户查询意图

问题：用户输入通常是自然语言问题（如“如何重置密码？”），而知识库若存储的是纯文本段落（如技术文档），检索时可能因语义差异导致匹配失败。
问答对的优势：
- 直接以“问题-答案”形式存储知识，检索时相似度计算更聚焦于“问题与问题”的匹配（Question-Question Similarity），而非“问题与段落”的匹配。
- 例如，若知识库中存有QA对 Q: 如何重置密码？ → A: 进入设置页面，点击“忘记密码”...，当用户提问“密码忘了怎么办？”时，即使表述不同，向量模型也能捕捉到语义相似性。

（2）降低生成模型的负担