- 博客(5)
- 收藏
- 关注
原创 用于RAG的PDF元数据混合向量搜索:原理、实践与实验对比
摘要:本文介绍了一种用于RAG系统的PDF元数据混合向量搜索工具,结合了稠密向量(Qwen3)和稀疏向量(BGE-M3)检索的优势。系统支持三种检索模式:语义稠密搜索、关键词稀疏搜索及二者的混合搜索,通过Milvus向量库实现高效检索。实验表明,稀疏检索在短关键词查询中表现更优,而混合检索适合复杂语义查询。文章详细解析了代码结构、API接口和使用方法,并针对不同场景提供了配置建议和优化方案,特别是对短查询中的同义词问题和检索噪音提出了后处理策略。该工具为知识库问答系统提供了灵活可扩展的检索解决方案。
2025-07-30 17:21:40
1845
原创 **RAG 的第一步,切分文档**
总体而言,NeuralChunker 在该文档上的表现稳定可靠成功识别出文档的宏观结构在语义和格式边界上进行合理切分保证了文本完整性和后续可用性但在条款类结构中,还可以通过参数调优或规则辅助,进一步提升切分的精确度和实用性。"""测试 Chonkie NeuralChunker 的脚本 - 处理 PDF 文件"""import os"""从 PDF 文件提取文本内容"""try:# 尝试使用 PyPDF2try:text = ""pass# 尝试使用 pdfplumber。
2025-08-29 21:16:12
1854
原创 【无标题】
Windows Server下切换VMware至Docker Desktop的解决方案 当Windows Server 2019同时运行VMware和Docker Desktop时,两者会因虚拟化资源冲突导致无法共存。本文提供完整切换指南: 关闭VMware 停止所有VMware虚拟机 完全退出VMware程序 通过services.msc停用5项VMware核心服务 检查并结束残留进程 启用Docker Desktop 直接启动Docker Desktop 验证运行状态(托盘图标变绿) 使用
2025-08-19 09:39:28
220
原创 python/anaconda No module named ‘f******‘
anaconda虚拟环境BUG—不要将环境名命名成第三方包的名字python/anaconda No module named 'f******' python/anaconda No module named ‘f******’ 当你的虚拟环境名字与import 的包名字一样的话会导入不进去。 提示:ModuleNotFoundError: No module named ‘f******’ ...
2021-02-22 13:38:07
481
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅