RAG中向量数据库如何搭建
向量数据库搭建流程
数据准备、文档切分、 向量化、
Embeding 入库、建索引、持续优化
- 数据收集:收集源文档 PDF(OCR)
- 数据清洗:对收集到的数据进行清洗,去除噪声数据,如 HTML 标签(若数据来源于网页)、无关的特殊字符、乱码等。同时,处理缺失值和重复数据。
- 对于缺失值,如果是少量文本数据缺失,可直接删除;若是重要信息缺失且数据量较大,可考虑通过其他数据源补充或使用算法预测填充。
- 对于重复数据,可通过哈希算法或文本相似度计算找出并删除,以提高数据质量。
- 文本预处理:对文本数据进行分词、词性标注、去除停用词等操作。例如在英文文本中,将句子拆分成单词,去除 “the”“and”“is” 等停用词;在中文文本中,使用结巴分词等工具将句子切分成词语。这一步的目的是简化文本,突出关键信息,便于后续向量化处理
- 构建索引:将向量存入数据库,并创建索引以加速检索。常见的索引类型有FLAT、IVF_FLAT、HNSW等,选择取决于精度和速度的权衡。
- 实现检索:编写查询逻辑,将查询文本转换为向量,然后在向量数据库中搜索最相似的向量。
- 数据更新:编写查询逻辑,将查询文本转换为向量,然后在向量数据库中搜索最相似的向量。
切分类型
简单检索:固定大小切分
精确问答:语义切分或查询感知切分
实时处理:增量式切分
多格式混合:自适应切分
1231

被折叠的 条评论
为什么被折叠?



