利用Langchain实现表格与文本的检索增强生成（RAG）教程与实战案例！

本文链接：https://blog.youkuaiyun.com/2401_85280106/article/details/146907827

【LangChain】（五）利用Langchain实现表格与文本的检索增强生成（RAG）教程与实战案例！

Langchain作为一个强大的框架，能够帮助我们实现表格和文本的检索增强生成（RAG）。本文将为您详细介绍如何使用Langchain进行表格和文本的RAG，并提供实用的代码示例，助您快速上手！@

\1. 引言
\2. 不使用Langchain的RAG实现
- 表格处理
- 文本处理
\3. 使用Langchain的RAG实现
- 表格处理
- 文本处理
\4. 使用Agent组合多种文档
\5. 总结与引导

1. 引言

在学习Langchain的过程中，我发现自己在能力提升上遇到了一些瓶颈，因此决定深入研究如何利用Langchain进行数据库和文档的检索增强生成。通过这次学习，我不仅掌握了如何快速查看文档API，还积累了一些实用的代码经验。接下来，我将分享我的学习成果，希望对您有所帮助！

2. 不使用Langchain的RAG实现

表格处理

在这一部分，我们将介绍如何在不使用Langchain的情况下进行表格的RAG实现。

方法1：读取Markdown格式的表格并嵌入模板

import pandas as pd
import sqlalchemy
from zhipuai import ZhipuAI

# 创建数据库连接
def create_db_connection(role, password, port, db):
    return sqlalchemy.create_engine(f'mysql+pymysql://{role}:{password}@localhost:{port}/{db}')

# 读取数据并转换为Markdown格式
def fetch_data_as_markdown(engine):
    sql = 'SELECT * FROM major_list'
    df = pd.read_sql(sql, engine)
    return df.to_markdown()

# 生成回答
def generate_response(question, context):
    prompt_template = """请阅读下表的Markdown格式，然后根据表格回答问题。一行中的表单元格用“|”分隔，不同行用“n”分隔
问题:
{question}
表格:
{context}
"""
    return prompt_template.format(question=question, context=context)

# 主程序
if __name__ == "__main__":
    engine = create_db_connection('{role}', '{password}', '{port}', '{db}')
    tb = fetch_data_as_markdown(engine)
    client = ZhipuAI(api_key='{your_api_key}')  # 填写您的API Key
    response = generate_response("设计学类有什么专业？授予学位是什么？学制多久？", tb)
    print(response)

方法2：直接使用函数调用

import json
import pandas as pd
import sqlalchemy
from zhipuai import ZhipuAI

# 创建数据库连接
def create_db_connection(role, password, port, db):
    return sqlalchemy.create_engine(f'mysql+pymysql://{role}:{password}@localhost:{port}/{db}')

# 读取数据
def fetch_data(engine):
    sql = 'SELECT * FROM major_list'
    return pd.read_sql(sql, engine)

# 根据条件过滤数据
def get_major_name(df, maj_category=None, maj_name=None, maj_code=None, degree_category=None, years=None, added_years=None):
    if maj_category:
        df = df[df['maj_category'] == maj_category]
    if maj_name:
        df = df[df['maj_name'] == maj_name]
    if maj_code:
        df = df[df['maj_code'] == maj_code]
    if degree_category:
        df = df[df['degree_category'] == degree_category]
    if years:
        df = df[df['years'] == years]
    if added_years:
        df = df[df['added_years'] == added_years]
    return df.to_markdown()

# 处理函数调用结果
def parse_function_call(model_response, messages):
    if model_response.choices[0].message.tool_calls:
        tool_call = model_response.choices[0].message.tool_calls[0]
        args = tool_call.function.arguments
        function_result = {}
        if tool_call.function.name == "get_major_name":
            function_result = get_major_name(**json.loads(args))
        messages.append({
            "role": "tool",
            "content": json.dumps(function_result),
            "tool_call_id": tool_call.id
        })
        return messages

# 主程序
if __name__ == "__main__":
    engine = create_db_connection('{role}', '{password}', '{port}', '{db}')
    df = fetch_data(engine)
    client = ZhipuAI(api_key='{your_api_key}')  # 填写您的API Key
    messages = [{"role": "user", "content": "帮我查询视觉传达这个专业所有信息"}]
    response = client.chat.completions.create(model="glm-4", messages=messages)
    messages = parse_function_call(response, messages)
    print(messages)

文本处理

文本相似度检索的过程如下：

读入文本并进行清洗
文本句子切分
文本向量化
计算相似度
取前几的答案作为输入

3. 使用Langchain的RAG实现

表格处理

方法1：使用Agent

from langchain.agents import tool
from langchain_community.utilities.sql_database import SQLDatabase
from langchain_community.agent_toolkits import create_sql_agent

# 创建数据库连接
db = SQLDatabase.from_uri('mysql+pymysql://{role}:{password}@localhost:{port}/{db}')
llm = get_glm(0.01)

# 创建Agent
agent_executor = create_sql_agent(llm, db=db, agent_type="openai-tools", verbose=True)

# 执行查询
output_res = agent_executor.invoke({"input": "2024年中国石油大学招收学生高考分数线是多少分？"})['output']
print(output_res)

方法2：使用Chain

from langchain_experimental.sql import SQLDatabaseChain

# 创建数据库连接
db = SQLDatabase.from_uri('mysql+pymysql://{role}:{password}@localhost:{port}/{db}')
db_chain = SQLDatabaseChain.from_llm(llm, db, verbose=True)

# 执行查询
result = db_chain.run("2024年中国石油大学招收学生高考分数线是多少分？")
print(result)

文本处理

使用Langchain的RetrievalQA进行文本处理：

from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.llms import OpenAI
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Chroma

# 加载文档
loader = TextLoader("../../state_of_the_union.txt")
documents = loader.load()

# 文本切分
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

# 向量化
embeddings = OpenAIEmbeddings()
docsearch = Chroma.from_documents(texts, embeddings)

# 创建RetrievalQA
qa = RetrievalQA.from_chain_type(llm=OpenAI(), chain_type="stuff", retriever=docsearch.as_retriever())

# 执行查询
query = "What did the president say about Ketanji Brown Jackson?"
result = qa.run(query)
print(result)

4. 使用Agent组合多种文档

在这一部分，我们将展示如何使用Agent将文本和数据库表格等多种文档组合起来。

from langchain.agents import initialize_agent, Tool
from langchain.agents import AgentType
from langchain.chains import RetrievalQA
from langchain_community.document_loaders import PyPDFLoader
from langchain_openai import ChatOpenAI
from langchain_text_splitters import CharacterTextSplitter
from langchain_experimental.sql import SQLDatabaseChain
from langchain_community.retrievers import BM25Retriever
from langchain.utilities import SQLDatabase

# 初始化模型
llm = ChatOpenAI()  # 或者使用其他模型

# 创建数据库连接
db = SQLDatabase.from_uri('mysql+pymysql://{role}:{password}@localhost:{port}/{db}')
db_chain = SQLDatabaseChain.from_llm(llm, db, verbose=True)

# 加载PDF文档
loader = PyPDFLoader("./CollegesandUniversities.pdf")
pages = loader.load_and_split()

# 文本切分
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(pages)

# 创建检索器
retriever = BM25Retriever.from_documents(docs)

# 创建功能列表
tools = [
    Tool(
        name="txt_search",
        func=RetrievalQA.from_chain_type(llm=llm, retriever=retriever),
        description="用于回答关于大学的问题。"
    ),
    Tool(
        name="db_search",
        func=db_chain.run,
        description="用于回答关于专业的问题。"
    )
]

# 初始化Agent
agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True)

# 执行Agent
res = agent({"input": "Do you know the name of the major whose major code is 020309T?"})["output"]
print("-----------------------------------")
print(res)

🔥codemoss_能用AI

【无限GPT4.omini】【拒绝爬梯】【上百种AI工作流落地场景】【主流大模型集聚地：GPT-4o-Mini、GPT-3.5 Turbo、GPT-4 Turbo、GPT-4o、GPT-o1、Claude-3.5-Sonnet、Gemini Pro、月之暗面、文心一言 4.0、通易千问 Plus等众多模型】

🔥传送门：https://www.nyai.chat/chat?invite=nyai_1141439&fromChannel=hp_gzh

在这里插入图片描述