技术背景介绍
Relyt 是一种云原生数据仓库服务,设计用于在线分析大规模数据。它兼容 ANSI SQL 2003 语法以及 PostgreSQL 和 Oracle 数据库生态系统,支持行存储和列存储。Relyt 能够高效处理 PB 级离线数据,并支持高并发在线查询。
在这篇文章中,我们将重点展示如何使用 Relyt 的向量数据库功能。我们将通过一个实际运行的示例,展示如何将文档分割、生成嵌入并存储到 Relyt。
核心原理解析
Relyt 的向量数据库支持从大型文本文档中提取嵌入向量,利用这些向量进行相似性搜索。通过这种方式,我们可以对文本进行更深入的语义分析,从而提升查询和数据处理效率。
代码实现演示
以下是一个完整的代码示例,展示如何使用 Relyt 向量数据库的功能:
# 安装必要的库
%pip install "pgvecto_rs[sdk]" langchain-community
from langchain_community.document_loaders import TextLoader
from langchain_community.embeddings.fake import FakeEmbeddings
from langchain_community.vectorstores import Relyt
from langchain_text_splitters import CharacterTextSplitter
import os
# 加载文档并进行分割
loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)
# 创建伪造的嵌入,实际应用中请使用真实的嵌入生成方法
embeddings = FakeEmbeddings(size=1536)
# 设置环境变量以连接 Relyt
os.environ["PG_HOST"] = "your_relyt_hostname"
os.environ["PG_PORT"] = "your_relyt_port"
os.environ["PG_DATABASE"] = "your_database"
os.environ["PG_USER"] = "database_username"
os.environ["PG_PASSWORD"] = "database_password"
# 构建连接字符串
connection_string = Relyt.connection_string_from_db_params(
driver=os.environ.get("PG_DRIVER", "psycopg2cffi"),
host=os.environ.get("PG_HOST", "localhost"),
port=int(os.environ.get("PG_PORT", "5432")),
database=os.environ.get("PG_DATABASE", "postgres"),
user=os.environ.get("PG_USER", "postgres"),
password=os.environ.get("PG_PASSWORD", "postgres"),
)
# 将文档和嵌入存储到 Relyt
vector_db = Relyt.from_documents(
docs,
embeddings,
connection_string=connection_string,
)
# 查询并检索数据
query = "What did the president say about Ketanji Brown Jackson"
retrieved_docs = vector_db.similarity_search(query)
# 输出检索结果
print(retrieved_docs[0].page_content)
应用场景分析
Relyt 向量数据库功能特别适合以下场景:
- 大规模文档语义分析
- 高并发的实时数据查询
- 复杂查询条件下的文本检索
实践建议
- 配置稳定的连接:确保连接配置正确,考虑使用环境变量管理敏感信息。
- 使用真实嵌入:在实际项目中,建议使用训练好的模型生成嵌入,而不是伪造的嵌入。
- 优化查询:根据实际需求调整查询参数,以实现最佳性能。
如果遇到问题欢迎在评论区交流。
—END—