用向量数据库建立本地知识库

本实例是通过向量数据库对本地文本进行拆分,拆分后每一块文本转成向量存放到向量数据库。这样在搜索内容时,会先把问题转成向量,然后就可以根据问题向量在向量数据库里进行搜索,快速找到对应内容。本程序完全离线运行(无需网络连接),支持模型本地存储(./m3e-base)和数据本地存储(./vector_db)。可以用于企业知识库检索、法律文档查询、学术论文搜索、个人文档管理等场景。

多格式文档处理
支持格式有PDF、Word(.docx)、纯文本(.txt)、Markdown(.md)、HTML(.html)。自动识别文件类型并选择对应解析器,支持批量处理目录中的多种格式文件。

扩展支持的文件格式:

| 格式 | 扩展名 | 依赖包 |

| PDF | .pdf | pypdf |

| Word | .docx | python-docx |

| 纯文本 | .txt | - |

| Markdown | .md | unstructured |

| HTML | .html | unstructured |

文本预处理
使用递归字符拆分器智能分块(500字符/块,50字符重叠),自动剔除空白或无效文本块,自动识别文本编码格式(特别是对中文支持)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

席子哥哥的代码库

你的鼓励是我最大的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值