RAG中向量数据库如何搭建

RAG中向量数据库如何搭建

向量数据库搭建流程

数据准备、文档切分、 向量化、

Embeding 入库、建索引、持续优化

  1. 数据收集:收集源文档 PDF(OCR)
  2. 数据清洗:对收集到的数据进行清洗,去除噪声数据,如 HTML 标签(若数据来源于网页)、无关的特殊字符、乱码等。同时,处理缺失值和重复数据。
  • 对于缺失值,如果是少量文本数据缺失,可直接删除;若是重要信息缺失且数据量较大,可考虑通过其他数据源补充或使用算法预测填充。
  • 对于重复数据,可通过哈希算法或文本相似度计算找出并删除,以提高数据质量。
  1. 文本预处理:对文本数据进行分词、词性标注、去除停用词等操作。例如在英文文本中,将句子拆分成单词,去除 “the”“and”“is” 等停用词;在中文文本中,使用结巴分词等工具将句子切分成词语。这一步的目的是简化文本,突出关键信息,便于后续向量化处理
  2. 构建索引:将向量存入数据库,并创建索引以加速检索。常见的索引类型有FLAT、IVF_FLAT、HNSW等,选择取决于精度和速度的权衡。
  3. 实现检索:编写查询逻辑,将查询文本转换为向量,然后在向量数据库中搜索最相似的向量。
  4. 数据更新:编写查询逻辑,将查询文本转换为向量,然后在向量数据库中搜索最相似的向量。

切分类型

简单检索:固定大小切分

精确问答:语义切分或查询感知切分

实时处理:增量式切分

多格式混合:自适应切分

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值