自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 用于RAG的PDF元数据混合向量搜索:原理、实践与实验对比

摘要:本文介绍了一种用于RAG系统的PDF元数据混合向量搜索工具,结合了稠密向量(Qwen3)和稀疏向量(BGE-M3)检索的优势。系统支持三种检索模式:语义稠密搜索、关键词稀疏搜索及二者的混合搜索,通过Milvus向量库实现高效检索。实验表明,稀疏检索在短关键词查询中表现更优,而混合检索适合复杂语义查询。文章详细解析了代码结构、API接口和使用方法,并针对不同场景提供了配置建议和优化方案,特别是对短查询中的同义词问题和检索噪音提出了后处理策略。该工具为知识库问答系统提供了灵活可扩展的检索解决方案。

2025-07-30 17:21:40 1845

原创 **RAG 的第一步,切分文档**

总体而言,NeuralChunker 在该文档上的表现稳定可靠成功识别出文档的宏观结构在语义和格式边界上进行合理切分保证了文本完整性和后续可用性但在条款类结构中,还可以通过参数调优或规则辅助,进一步提升切分的精确度和实用性。"""测试 Chonkie NeuralChunker 的脚本 - 处理 PDF 文件"""import os"""从 PDF 文件提取文本内容"""try:# 尝试使用 PyPDF2try:text = ""pass# 尝试使用 pdfplumber。

2025-08-29 21:16:12 1854

原创 【无标题】

Windows Server下切换VMware至Docker Desktop的解决方案 当Windows Server 2019同时运行VMware和Docker Desktop时,两者会因虚拟化资源冲突导致无法共存。本文提供完整切换指南: 关闭VMware 停止所有VMware虚拟机 完全退出VMware程序 通过services.msc停用5项VMware核心服务 检查并结束残留进程 启用Docker Desktop 直接启动Docker Desktop 验证运行状态(托盘图标变绿) 使用

2025-08-19 09:39:28 220

原创 当ubuntu 文件系統损坏,无法安装opencv

ubuntu系统出现 apt --fix -broken 提示

2022-06-20 20:30:43 194

原创 python/anaconda No module named ‘f******‘

anaconda虚拟环境BUG—不要将环境名命名成第三方包的名字python/anaconda No module named 'f******' python/anaconda No module named ‘f******’ 当你的虚拟环境名字与import 的包名字一样的话会导入不进去。 提示:ModuleNotFoundError: No module named ‘f******’ ...

2021-02-22 13:38:07 481

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除