- 博客(18)
- 收藏
- 关注
原创 datawhale 组队学习 RAG技术全栈指南task6打卡
通过知识抽取(实体、关系、属性)、质量控制(置信度、冲突消解)和图谱融合(实体对齐)从原始数据中构建高质量的 KG。利用图查询语言(如 Cypher)进行邻域扩展、路径发现和约束过滤。(三元组/路径)与原始查询一同注入到 LLM 提示(Prompt)中。优势,实现了 RAG 技术从“信息检索”向“知识利用”的演进。防范数据泄露、模型中毒、针对检索模块的攻击。应支持答案的“金标准证据”被检回的比例。生成答案中的断言是否被检索证据正确支撑。检索到的上下文中相关知识的比例。断言与证据的一致性。
2025-11-29 21:19:40
444
原创 datawhale 组队学习 RAG技术全栈指南task5打卡
数据准备模块是 RAG 系统效果的关键,它实现了**“小块检索,大块生成”的父子文本块策略,以兼顾检索的精确性和生成的上下文完整性**。
2025-11-28 15:24:07
321
原创 datawhale 组队学习 RAG技术全栈指南task4打卡
混合检索不是简单的“拼凑”,而是为了弥补单一检索模态的数学缺陷。稠密检索(Dense Retrieval / Vector Search)的缺陷:基于语义向量。它擅长理解“意思”,但对精确匹配非常弱。例如,搜索“错误码 8023”,向量模型可能会将其关联到“网络连接错误”,但不一定能精准匹配到含有“8023”这个具体数字的文档。稀疏检索(Sparse Retrieval / Keyword Search)的缺陷:基于词频(如 BM25)。它擅长精确匹配字符,但无法理解语义。例如,搜索“苹果手机”,它无法匹配
2025-11-25 22:45:58
416
原创 datawhale 组队学习 RAG技术全栈指南task3打卡
定位:开源、云原生、分布式的向量数据库。核心优势高扩展性:存储计算分离,轻松应对百亿级数据。高可用:生产级容灾能力。生态丰富:LF AI & Data 顶级项目,集成 LangChain、LlamaIndex 等。与 FAISS/Chroma 的区别:FAISS 是本地库,适合原型/小规模;Milvus 是独立的服务端软件,适合大规模生产环境。Milvus 是构建大规模 RAG 和多模态搜索系统的基石。
2025-11-20 23:55:41
964
原创 datawhale 组队学习 RAG技术全栈指南task2打卡
这段代码实现了PDF → 结构化文本的自动解析、类型统计与内容展示,是文档内容预处理(如 RAG 检索、语义分块、摘要提取)中的标准前置步骤。
2025-11-14 22:45:31
147
原创 datawhale 组队学习 RAG技术全栈指南task1打卡
先把章节内容切块 → 建索引 → 用问题做向量检索拿到相关片段 → 把这些片段塞进 Prompt → 让 DeepSeek 在这些上下文内回答问题”。
2025-11-12 00:37:51
436
原创 adduser: Please enter a username matching the regular expression configured 创建windows下Linux子系统账户时的报错
创建windows下Linux子系统账户时的报错
2023-08-21 17:47:30
2102
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅