利用 Hologres 实现实时向量搜索

最新推荐文章于 2025-09-21 09:05:44 发布

原创最新推荐文章于 2025-09-21 09:05:44 发布 · 422 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#python

技术背景介绍

Hologres 是由阿里云开发的一款统一实时数据仓库服务，能够实时写入、更新、处理和分析大量数据。它支持标准 SQL 语法，兼容 PostgreSQL，并支持绝大部分 PostgreSQL 功能。此外，Hologres 通过集成 Proxima 提供了强大的向量数据库功能。Proxima 是由阿里巴巴达摩院开发的高性能软件库，可以对向量进行最近邻搜索，具备较高的稳定性和性能，相较于开源软件如 Faiss 更具优势。Hologres 和 Proxima 的深度集成为我们提供了高性能的向量搜索服务。

核心原理解析

Proxima 通过高效的数据结构和算法，实现对大规模向量数据的快速相似搜索。通过将文本或图像嵌入作为向量存储，我们能够利用 Hologres 提供的高并发和低延迟的在线数据服务进行实时的相似性搜索。

代码实现演示

下面的示例将展示如何使用 Hologres 实现一个基于文本的向量搜索功能。首先，我们需要安装相关的 Python 库：

%pip install --upgrade --quiet langchain_community hologres-vector

接下来，通过以下代码，我们将加载文本数据、生成嵌入，并将其存储在 Hologres 中：

import os
from langchain_community.vectorstores import Hologres
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.document_loaders import TextLoader

# 加载和拆分文档
loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# 获取文本嵌入
embeddings = OpenAIEmbeddings()

# 设置环境变量以连接 Hologres
os.environ['PGHOST'] = 'your-hologres-host'
os.environ['PGPORT'] = '80'
os.environ['PGDATABASE'] = 'your-db-name'
os.environ['PGUSER'] = 'your-username'
os.environ['PGPASSWORD'] = 'your-password'

# 创建连接字符串
connection_string = Hologres.connection_string_from_db_params(
    host=os.environ['PGHOST'],
    port=int(os.environ.get('PGPORT', "80")),
    database=os.environ['PGDATABASE'],
    user=os.environ['PGUSER'],
    password=os.environ['PGPASSWORD'],
)

# 存储嵌入和文档
vector_db = Hologres.from_documents(
    docs,
    embeddings,
    connection_string=connection_string,
    table_name="langchain_example_embeddings",
)

# 查询数据
query = "What did the president say about Ketanji Brown Jackson"
docs = vector_db.similarity_search(query)

# 打印查询结果
print(docs[0].page_content)