DB-GPT项目中基于关键词检索的RAG应用开发指南

胡晗研

于 2025-06-02 09:05:25 发布

阅读量271

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_01004/article/details/148375746

DB-GPT项目中基于关键词检索的RAG应用开发指南

DB-GPT DB-GPT - 一个开源的数据库领域大模型框架，旨在简化构建数据库大模型应用的过程。项目地址: https://gitcode.com/gh_mirrors/db/DB-GPT

引言

在当今信息爆炸的时代，如何从海量文档中快速准确地检索出相关信息是许多开发者面临的挑战。DB-GPT项目提供了一种创新的解决方案——基于关键词检索的RAG（Retrieval-Augmented Generation）框架。本文将深入探讨这一技术的原理、优势以及实际应用方法。

关键词检索RAG与向量检索的对比

向量检索的局限性

虽然向量检索在语义理解方面表现出色，但它存在几个明显的局限性：

计算资源密集：为整个文档集生成向量并进行相似性查询需要大量计算资源，系统优化不足时会导致延迟问题
依赖大规模训练数据：像BERT这样的模型需要海量多样化数据进行长时间训练，对于专业领域语料可能效果不佳
精确关键词查询效果欠佳：当查询包含明确关键词时，向量搜索反而可能降低结果质量

何时选择关键词检索

关键词检索在以下场景中更具优势：

查询意图明确且具体
研究目标明确且范围狭窄
查询包含专有名词或品牌名称
需要快速获取结果而非全面相关性

环境准备

安装依赖

首先需要安装DB-GPT的核心库及其RAG扩展：

pip install "dbgpt[rag]>=0.5.8"

全文搜索引擎配置

Elasticsearch是DB-GPT关键词检索RAG的推荐搜索引擎，它提供了高效的全文检索能力。安装完成后，在项目根目录的.env文件中配置连接参数：

ELASTICSEARCH_URL=localhost
ELASTICSEARCH_PORT=9200
ELASTICSEARCH_USERNAME=elastic
ELASTICSEARCH_PASSWORD=dbgpt

核心实现步骤

1. 创建Elasticsearch连接器

from dbgpt_ext.storage.full_text.elasticsearch import ElasticDocumentConfig, ElasticDocumentStore

def _create_es_connector():
    """创建Elasticsearch连接器"""
    config = ElasticDocumentConfig(
        name="keyword_rag_test",  # 索引名称
        uri="localhost",         # 服务地址
        port="9200",            # 服务端口
        user="elastic",         # 用户名
        password="dbgpt",      # 密码
    )
    return ElasticDocumentStore(config)

2. 文档加载与索引构建

from dbgpt.configs.model_config import ROOT_PATH
from dbgpt_ext.rag import ChunkParameters
from dbgpt_ext.rag.assembler import EmbeddingAssembler
from dbgpt_ext.rag.knowledge import KnowledgeFactory

async def main():
    # 指定文档路径
    file_path = os.path.join(ROOT_PATH, "docs/docs/awel/awel.md")
    
    # 从文件创建知识对象
    knowledge = KnowledgeFactory.from_file_path(file_path)
    
    # 创建Elasticsearch连接
    keyword_store = _create_es_connector()
    
    # 配置分块参数
    chunk_parameters = ChunkParameters(chunk_strategy="CHUNK_BY_SIZE")
    
    # 创建文档组装器并持久化
    assembler = EmbeddingAssembler.load_from_knowledge(
        knowledge=knowledge,
        chunk_parameters=chunk_parameters,
        index_store=keyword_store,
    )
    assembler.persist()

3. 执行关键词检索

    # 创建检索器并执行查询
    retriever = assembler.as_retriever(3)  # 设置返回结果数量
    chunks = await retriever.aretrieve_with_scores("what is awel talk about", 0.3)
    print(f"检索结果:{chunks}")