使用LangChain实现TextToSql

最新推荐文章于 2025-06-05 12:19:03 发布

WorkAgent

最新推荐文章于 2025-06-05 12:19:03 发布

阅读量9.2k

点赞数 1

CC 4.0 BY-SA版权

文章标签： langchain 人工智能自然语言处理语言模型

本文链接：https://blog.youkuaiyun.com/wangning0714/article/details/133915510

文章探讨了大型语言模型（LLM）如ChatGPT的幻觉问题，提出通过将LLM与SQL数据库连接，利用LangChain框架实现信息精确查询，以减少不准确响应。然而，复杂查询处理仍是挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

近年来，大型语言模型 (LLM) 因其在广泛领域生成连贯且上下文相关的文本的卓越能力而变得倍受欢迎。尽管LLMS用于回答问题、协助研究和帮助工程师进行软件开发，但LLMS所表现出的主要弱点之一是它们能够生成不正确或无意义的文本，也称为“幻觉”。例如，如果你问 OpenAI 的 ChatGPT：“法国什么时候赠送立陶宛维尔纽斯电视塔？”，ChatGPT 可能会回答：“法国于 1980 年赠送立陶宛维尔纽斯电视塔”，这实际上是不真实的，因为法国与立陶宛维尔纽斯电视塔的建设无关。

LLMS能够如此自信地回复谎言的原因之一是，LLMS会试图将互联网上不同来源的信息混为一谈，以产生不准确或误导性的回应。LLMS产生幻觉的另一个原因是信息来源不准确，LLMS会在未经验证的情况下使用这些信息。为了帮助减少LLM对特定领域的幻觉，我们可以尝试将LLM连接到SQL数据库，该数据库保存LLM可以查询的准确结构化信息。这将使LLMS专注于信息提取的单一来源，从而使LLMS能够返回数据库提供的最准确的信息。

本文将演示如何通过将OpenAI的GPT-3.5连接到mysql数据库来将LLM与SQL数据库结合使用。我们将使用LangChain作为我们的框架，并用Python编写。

1.依赖环境

mysql数据库的安装在此不做展示。确保已经有一个可用的API-KEY。

这里可用的查询 SQL 数据库的链有：SQLDatabaseSequentialChain 和 SQLDatabaseChain

数据量较小的话可以直接使用SQLDatabaseChain

pip install langchain 
pip install openai

from langchain import OpenAI, SQLDatabase
from langchain.chains import SQLDatabaseChain

查看数据库中相关信息：

2.设置环境

在我们将数据库连接到我们的 LLM 之前，让我们首先获得一个要连接的数据库。由于LangChain使用SQLAlchemy连接SQL数据库，因此我们可以使用SQLAlchemy支持的任何SQL方言，例如MS SQL、MySQL、MariaDB、PostgreSQL、Oracle SQL、Databricks或SQLite。如果您想了解更多有关连接数据库的要求，请参阅此处的SQLAlchemy 文档。

参考链接：http://https://docs.sqlalchemy.org/en/20/core/engines.html

接下来配置LLM及数据库连接即可

# 设置数据库连接参数
db_user = "root"
db_password = "root"
db_host = "localhost"
db_name = "test_001"
db = SQLDatabase.from_uri(f"mysql+pymysql://{db_user}:{db_password}@{db_host}/{db_name}")

# 这里以gpt-3.5 为模型
OPENAI_API_KEY = "您的 OpenAI 密钥"
llm = OpenAI(temperature=0, openai_api_key=OPENAI_API_KEY, model_name='gpt-3.5-turbo')

3.设置prompt并运行查询

最后我们可以设置prompt并运行查询：

Question = “根随机查询一个演员的相关信息”  
# 如果没有提示，请使用 db_chain.run(question)
 db_chain.run(PROMPT.format ( question=question))

最后我们可以运行我们的程序并观察结果：

> Entering new SQLDatabaseChain chain...

Given an input question, first create a syntactically correct mysql query to run, then look at the results of the query and return the answer.
Use the following format:

Question: Question here
SQLQuery: SQL Query to run
SQLResult: Result of the SQLQuery
Answer: Final answer here

随机查询一个演员的相关信息

SELECT * FROM actor ORDER BY RAND() LIMIT 1;
SQLResult: [(99811001, 'Zou Kai', '男', None, None)]
Answer:Zou Kai is a male actor.
> Finished chain.
Zou Kai is a male actor.

进程已结束,退出代码0

结果正确输出。