使用Yellowbrick作为向量存储构建ChatGPT增强型聊天机器人-优快云博客

本文链接：https://blog.youkuaiyun.com/eahba/article/details/146465814

在现代数据驱动的业务环境中，快速检索和分析大量数据至关重要。Yellowbrick作为一种弹性、并行处理的SQL数据库，能够无缝运行于云端和本地环境，是处理复杂数据仓库的重要工具。除了传统的数据处理，Yellowbrick的扩展性也使其成为高性能向量数据库的理想选择，可以用来存储和搜索向量数据。

在本文中，我们将探讨如何将Yellowbrick用于ChatGPT的增强型检索生成（RAG）系统。通过这个实践教程，你将学会如何结合Yellowbrick和OpenAI的ChatGPT模型，创建一个改进版本的聊天机器人。

技术背景介绍

Yellowbrick的弹性架构支持复杂的业务数据处理，同时，通过内置的Kubernetes支持，确保了其可扩展性和稳定性。使用SQL进行向量存储和检索，Yellowbrick能够提供给AI应用领域高效的解决方案。

核心原理解析

本教程将分为以下几个部分：

使用LangChain创建一个不依赖向量存储的基础聊天机器人。
在Yellowbrick中创建一个用于表示向量存储的嵌入表。
导入一系列文档（Yellowbrick手册的管理章）。
将文档转换为向量并存储在Yellowbrick中。
使用改进后的聊天机器人处理查询，以展示效果。

代码实现演示（重点）

安装必要库

使用以下命令安装所需的Python库：

%pip install --upgrade --quiet langchain langchain-openai langchain-community psycopg2-binary tiktoken

配置连接信息

你需要为Yellowbrick账户创建配置信息，以及获取OpenAI的API密钥：

YBUSER = "[SANDBOX USER]"
YBPASSWORD = "[SANDBOX PASSWORD]"
YBDATABASE = "[SANDBOX_DATABASE]"
YBHOST = "trialsandbox.sandbox.aws.yellowbrickcloud.com"
OPENAI_API_KEY = "[OPENAI API KEY]"

os.environ["OPENAI_API_KEY"] = OPENAI_API_KEY

创建基础聊天机器人

首先，我们创建一个不使用向量存储的ChatGPT聊天机器人：

from langchain.chains import LLMChain
from langchain_openai import ChatOpenAI
from langchain_core.prompts.chat import ChatPromptTemplate, HumanMessagePromptTemplate, SystemMessagePromptTemplate

system_template = """If you don't know the answer, Make up your best guess."""
messages = [
    SystemMessagePromptTemplate.from_template(system_template),
    HumanMessagePromptTemplate.from_template("{question}"),
]
prompt = ChatPromptTemplate.from_messages(messages)

llm = ChatOpenAI(
    model_name="gpt-3.5-turbo",
    temperature=0,
    max_tokens=256,
)

chain = LLMChain(llm=llm, prompt=prompt, verbose=False)

def print_result_simple(query):
    result = chain(query)
    display(Markdown(f"### Question:\n{query}\n### Answer:\n{result['text']}"))

print_result_simple("How many databases can be in a Yellowbrick Instance?")

创建嵌入表并加载文档

接下来，我们在Yellowbrick中创建嵌入表并加载相关文档：

import psycopg2

try:
    conn = psycopg2.connect(yellowbrick_connection_string)
    cursor = conn.cursor()
    create_table_query = """
    CREATE TABLE IF NOT EXISTS my_embeddings (
        doc_id uuid NOT NULL,
        embedding_id smallint NOT NULL,
        embedding double precision NOT NULL
    )
    DISTRIBUTE ON (doc_id);
    TRUNCATE TABLE my_embeddings;
    """
    cursor.execute(create_table_query)
    conn.commit()
    cursor.close()
    conn.close()
    print("Table 'my_embeddings' created successfully!")
except psycopg2.Error as e:
    print(f"Error: {e}")

应用场景分析

利用Yellowbrick作为向量存储，能够大大提高检索生成模型的效率，尤其是对于需要大量信息查询和分析的场景，例如客户支持、知识管理等。

实践建议

在实际应用中，确保文档的格式和内容适宜切分和向量化。
定期更新文档的嵌入，以反映最新的信息变化。
考虑使用索引来优化大规模向量数据检索性能。

如果遇到问题欢迎在评论区交流。

—END—