LangBot的RAG知识库实现

最新推荐文章于 2025-12-03 00:57:34 发布

原创最新推荐文章于 2025-12-03 00:57:34 发布 · 641 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#LangBot #RAG知识库实现

部署运行你感兴趣的模型镜像

摘要

RAG（Retrieval-Augmented Generation，检索增强生成）技术是当前大语言模型应用中的重要技术之一，它通过将外部知识库与大语言模型结合，显著提升了模型在特定领域的问答能力和准确性。LangBot内置了强大的RAG知识库实现，支持多种向量数据库和知识管理功能。本文将深入解析LangBot中RAG知识库的实现原理、架构设计和使用方法，并通过实际示例演示如何构建和使用知识库来增强聊天机器人的智能问答能力。

正文

1. RAG技术概述

RAG技术通过将检索系统和生成模型相结合，解决了大语言模型在特定领域知识不足和知识时效性差的问题。其核心流程包括：

知识检索：根据用户问题从知识库中检索相关文档
上下文融合：将检索到的文档与用户问题融合成新的提示
生成回答：使用大语言模型基于融合后的提示生成回答

2. LangBot RAG系统架构

LangBot的RAG系统采用了模块化设计，主要包括以下几个核心组件：

3. 核心组件详解

3.1 RAG管理器（RAGManager）

RAG管理器是LangBot RAG系统的核心组件，负责协调各个子组件的工作：

class RAGManager:
    """RAG管理器"""
    
    def __init__(self, ap: app.Application):
        self.ap = ap
        self.kb_mgr: kbmgr.KnowledgeBaseManager = None
        self.vdb_mgr: vectordb_mgr.VectorDBManager = None
    
    async def initialize(self):
        """初始化RAG管理器"""
        self.kb_mgr = kbmgr.KnowledgeBaseManager(self.ap)
        self.vdb_mgr = vectordb_mgr.VectorDBManager(self.ap)
        
        await self.kb_mgr.initialize()
        await self.vdb_mgr.initialize()
    
    async def query_knowledge(
        self, 
        query_text: str, 
        kb_uuid: str = None,
        top_k: int = 5
    ) -> list[dict]:
        """
        查询知识库
        
        Args:
            query_text: 查询文本
            kb_uuid: 知识库UUID
            top_k: 返回结果数量
            
        Returns:
            检索到的知识条目列表
        """
        # 将查询文本转换为向量
        query_vector = await self._text_to_vector(query_text)
        
        # 从向量数据库中检索相关条目
        results = await self.vdb_mgr.search(
            vector=query_vector,
            kb_uuid=kb_uuid,
            top_k=top_k
        )
        
        return results

3.2 知识库管理器（KnowledgeBaseManager）

知识库管理器负责知识库的创建、更新和管理：

class KnowledgeBaseManager:
    """知识库管理器"""
    
    def __init__(self, ap: app.Application):
        self.ap = ap
        self.knowledge_bases: dict[str, KnowledgeBase] = {}
    
    async def create_knowledge_base(
        self, 
        name: str, 
        description: str = ""
    ) -> KnowledgeBase:
        """
        创建知识库
        
        Args:
            name: 知识库名称
            description: 知识库描述
            
        Returns:
            创建的知识库对象
        """
        kb = KnowledgeBase(
            name=name,
            description=description,
            created_at=datetime.now()
        )
        
        # 保存到数据库
        await self.ap.persistence_mgr.execute_async(
            sqlalchemy.insert(persistence_kb.KnowledgeBase).values(
                uuid=kb.uuid,
                name=kb.name,
                description=kb.description,
                created_at=kb.created_at
            )
        )
        
        self.knowledge_bases[kb.uuid] = kb
        return kb
    
    async def add_document(
        self, 
        kb_uuid: str, 
        content: str, 
        metadata: dict = None
    ) -> KnowledgeEntry:
        """
        向知识库添加文档
        
        Args:
            kb_uuid: 知识库UUID
            content: 文档内容
            metadata: 元数据
            
        Returns:
            创建的知识条目
        """
        kb = self.knowledge_bases.get(kb_uuid)
        if not kb:
            raise ValueError(f"知识库 {kb_uuid} 不存在")
        
        # 创建知识条目
        entry = KnowledgeEntry(
            kb_uuid=kb_uuid,
            content=content,
            metadata=metadata or {}
        )
        
        # 保存到数据库
        await self.ap.persistence_mgr.execute_async(
            sqlalchemy.insert(persistence_kb.KnowledgeEntry).values(
                uuid=entry.uuid,
                kb_uuid=entry.kb_uuid,
                content=entry.content,
                metadata=entry.metadata,
                created_at=entry.created_at
            )
        )
        
        # 转换为向量并存储到向量数据库
        await self._index_entry(entry)
        
        return entry

3.3 向量数据库管理器（VectorDBManager）

向量数据库管理器负责向量的存储和检索：

class VectorDBManager:
    """向量数据库管理器"""
    
    def __init__(self, ap: app.Application):
        self.ap = ap
        self.vdbs: dict[str, VectorDB] = {}
    
    async def initialize(self):
        """初始化向量数据库管理器"""
        # 加载配置的向量数据库
        await self.load_vdbs_from_config()
    
    async def search(
        self, 
        vector: list[float], 
        kb_uuid: str = None,
        top_k: int = 5
    ) -> list[dict]:
        """
        向量检索
        
        Args:
            vector: 查询向量
            kb_uuid: 知识库UUID（可选）
            top_k: 返回结果数量
            
        Returns:
            检索结果列表
        """
        # 确定要搜索的向量数据库
        if kb_uuid:
            vdb = await self.get_vdb_for_kb(kb_uuid)
        else:
            # 使用默认向量数据库
            vdb = await self.get_default_vdb()
        
        # 执行检索
        results = await vdb.search(
            vector=vector,
            filter={"kb_uuid": kb_uuid} if kb_uuid else None,
            top_k=top_k
        )
        
        return results

4. 知识处理流程

LangBot中的知识处理流程包括文档预处理、向量化和索引存储三个主要步骤：

4.1 文档预处理

async def preprocess_document(content: str) -> str:
    """
    预处理文档内容
    
    Args:
        content: 原始文档内容
        
    Returns:
        预处理后的文档内容
    """
    # 移除多余空白字符
    content = re.sub(r'\s+', ' ', content)
    
    # 移除特殊字符
    content = re.sub(r'[^\w\s\u4e00-\u9fff.,!?;:]', '', content)
    
    # 其他预处理操作...
    
    return content.strip()

4.2 文本分割

def split_text(text: str, chunk_size: int = 500, overlap: int = 50) -> list[str]:
    """
    分割文本为块
    
    Args:
        text: 文本内容
        chunk_size: 块大小
        overlap: 重叠大小
        
    Returns:
        文本块列表
    """
    chunks = []
    start = 0
    
    while start < len(text):
        end = min(start + chunk_size, len(text))
        chunk = text[start:end]
        chunks.append(chunk)
        
        start += chunk_size - overlap
        if start >= len(text):
            break
    
    return chunks

4.3 向量化

async def text_to_vector(text: str, model_name: str = "text-embedding-ada-002") -> list[float]:
    """
    将文本转换为向量
    
    Args:
        text: 文本内容
        model_name: 嵌入模型名称
        
    Returns:
        文本向量
    """
    # 使用OpenAI嵌入模型
    import openai
    
    client = openai.AsyncOpenAI()
    
    response = await client.embeddings.create(
        model=model_name,
        input=text
    )
    
    return response.data[0].embedding

5. 在流水线中使用RAG

在LangBot的流水线中集成RAG功能非常简单，可以通过自定义阶段实现：

@stage.stage_class("rag-query")
class RAGQueryStage(stage.PipelineStage):
    """RAG查询阶段"""
    
    async def initialize(self, pipeline_config: dict):
        """初始化阶段"""
        self.config = pipeline_config.get("rag_query", {})
        
    async def process(
        self,
        query: pipeline_query.Query,
        stage_inst_name: str,
    ) -> entities.StageProcessResult:
        """处理消息"""
        # 获取用户问题
        user_question = query.message_chain.get_text()
        
        # 配置参数
        kb_uuid = self.config.get("kb_uuid")
        top_k = self.config.get("top_k", 5)
        
        # 查询知识库
        knowledge_results = await self.ap.rag_mgr.query_knowledge(
            query_text=user_question,
            kb_uuid=kb_uuid,
            top_k=top_k
        )
        
        # 构造上下文
        context = "\n".join([result["content"] for result in knowledge_results])
        
        # 更新查询对象，添加上下文信息
        query.variables["rag_context"] = context
        query.variables["knowledge_results"] = knowledge_results
        
        return entities.StageProcessResult(
            result_type=entities.ResultType.CONTINUE,
            new_query=query,
            console_notice=f"检索到{len(knowledge_results)}条相关知识"
        )


@stage.stage_class("rag-answer")
class RAGAnswerStage(stage.PipelineStage):
    """RAG回答阶段"""
    
    async def process(
        self,
        query: pipeline_query.Query,
        stage_inst_name: str,
    ) -> entities.StageProcessResult:
        """处理消息"""
        # 获取用户问题和检索到的上下文
        user_question = query.message_chain.get_text()
        context = query.variables.get("rag_context", "")
        
        if not context:
            return entities.StageProcessResult(
                result_type=entities.ResultType.CONTINUE,
                new_query=query
            )
        
        # 构造提示词
        prompt = f"""
        基于以下上下文回答用户问题：
        
        上下文：
        {context}
        
        用户问题：
        {user_question}
        
        请根据上下文回答问题，如果上下文不相关，请说明无法基于提供的信息回答问题。
        """.strip()
        
        # 获取默认模型
        default_model = await self.ap.model_mgr.get_default_model()
        
        # 调用模型
        response = await default_model.requester.invoke_llm(
            query=query,
            model=default_model,
            messages=[{"role": "user", "content": prompt}]
        )
        
        # 构造回复
        reply = platform_message.MessageChain([
            platform_message.Plain(text=response.content)
        ])
        
        return entities.StageProcessResult(
            result_type=entities.ResultType.CONTINUE,
            new_query=query,
            user_notice=reply
        )

6. 知识库管理实践

6.1 创建知识库

# 创建知识库示例
async def create_company_knowledge_base(ap: app.Application):
    """
    创建企业知识库
    
    Args:
        ap: 应用实例
    """
    # 创建知识库
    kb = await ap.rag_mgr.kb_mgr.create_knowledge_base(
        name="公司知识库",
        description="包含公司产品、服务和政策信息"
    )
    
    # 添加文档
    documents = [
        {
            "content": "我们的旗舰产品是LangBot，一个开源的大语言模型聊天机器人平台。",
            "metadata": {"type": "product", "category": "旗舰产品"}
        },
        {
            "content": "公司成立于2023年，专注于AI技术的研发和应用。",
            "metadata": {"type": "company", "category": "基本信息"}
        },
        {
            "content": "我们的服务包括技术支持、定制开发和培训服务。",
            "metadata": {"type": "service", "category": "服务内容"}
        }
    ]
    
    for doc in documents:
        await ap.rag_mgr.kb_mgr.add_document(
            kb_uuid=kb.uuid,
            content=doc["content"],
            metadata=doc["metadata"]
        )
    
    print(f"知识库 {kb.name} 创建成功，UUID: {kb.uuid}")

6.2 更新知识库

# 更新知识库示例
async def update_knowledge_base(ap: app.Application, kb_uuid: str):
    """
    更新知识库
    
    Args:
        ap: 应用实例
        kb_uuid: 知识库UUID
    """
    # 添加新文档
    await ap.rag_mgr.kb_mgr.add_document(
        kb_uuid=kb_uuid,
        content="我们新推出了LangBot Pro版本，提供更多高级功能。",
        metadata={"type": "product", "category": "新产品"}
    )
    
    # 更新现有文档
    # 实现文档更新逻辑...

7. 性能优化

7.1 向量缓存

class VectorCache:
    """向量缓存"""
    
    def __init__(self, max_size: int = 1000):
        self.cache = {}
        self.max_size = max_size
        self.access_order = []
    
    async def get(self, text: str) -> list[float] | None:
        """获取缓存的向量"""
        if text in self.cache:
            # 更新访问顺序
            self.access_order.remove(text)
            self.access_order.append(text)
            return self.cache[text]
        return None
    
    async def put(self, text: str, vector: list[float]):
        """缓存向量"""
        if len(self.cache) >= self.max_size:
            # 移除最久未访问的项
            oldest = self.access_order.pop(0)
            del self.cache[oldest]
        
        self.cache[text] = vector
        self.access_order.append(text)

7.2 批量处理

async def batch_vectorize(texts: list[str]) -> list[list[float]]:
    """
    批量向量化文本
    
    Args:
        texts: 文本列表
        
    Returns:
        向量列表
    """
    import openai
    
    client = openai.AsyncOpenAI()
    
    response = await client.embeddings.create(
        model="text-embedding-ada-002",
        input=texts
    )
    
    return [item.embedding for item in response.data]