丝竹青云-优快云博客

原创 datawhale 组队学习 RAG技术全栈指南task6打卡

通过知识抽取（实体、关系、属性）、质量控制（置信度、冲突消解）和图谱融合（实体对齐）从原始数据中构建高质量的 KG。利用图查询语言（如 Cypher）进行邻域扩展、路径发现和约束过滤。（三元组/路径）与原始查询一同注入到 LLM 提示（Prompt）中。优势，实现了 RAG 技术从“信息检索”向“知识利用”的演进。防范数据泄露、模型中毒、针对检索模块的攻击。应支持答案的“金标准证据”被检回的比例。生成答案中的断言是否被检索证据正确支撑。检索到的上下文中相关知识的比例。断言与证据的一致性。

2025-11-29 21:19:40 444

原创 datawhale 组队学习 RAG技术全栈指南task5打卡

数据准备模块是 RAG 系统效果的关键，它实现了**“小块检索，大块生成”的父子文本块策略，以兼顾检索的精确性和生成的上下文完整性**。

2025-11-28 15:24:07 321

原创 datawhale 组队学习 RAG技术全栈指南task4打卡

混合检索不是简单的“拼凑”，而是为了弥补单一检索模态的数学缺陷。稠密检索（Dense Retrieval / Vector Search）的缺陷：基于语义向量。它擅长理解“意思”，但对精确匹配非常弱。例如，搜索“错误码 8023”，向量模型可能会将其关联到“网络连接错误”，但不一定能精准匹配到含有“8023”这个具体数字的文档。稀疏检索（Sparse Retrieval / Keyword Search）的缺陷：基于词频（如 BM25）。它擅长精确匹配字符，但无法理解语义。例如，搜索“苹果手机”，它无法匹配

2025-11-25 22:45:58 416

原创 datawhale 组队学习 RAG技术全栈指南task3打卡

定位：开源、云原生、分布式的向量数据库。核心优势高扩展性：存储计算分离，轻松应对百亿级数据。高可用：生产级容灾能力。生态丰富：LF AI & Data 顶级项目，集成 LangChain、LlamaIndex 等。与 FAISS/Chroma 的区别：FAISS 是本地库，适合原型/小规模；Milvus 是独立的服务端软件，适合大规模生产环境。Milvus 是构建大规模 RAG 和多模态搜索系统的基石。

2025-11-20 23:55:41 964