PostgreSQL存储向量

星哥来了

已于 2025-01-23 10:35:03 修改

阅读量623

点赞数 5

文章标签： postgresql embedding 数据库

于 2024-10-14 09:24:03 首次发布

本文链接：https://blog.youkuaiyun.com/u013220851/article/details/142909021

版权

在数据分析和机器学习的领域，pgvector是一个强大的工具，它允许我们在PostgreSQL 数据库中直接存储和操作向量数据。这种能力使得我们可以更加高效地处理高维数据，并快速执行诸如余弦相似度查询等任务。在本篇文章中，我将介绍如何使用Docker部署和测试pgvector。

一、Docker安装

首先，你需要在你的计算机上安装Docker。Docker是一个开源的容器化平台，它可以让开发者将应用打包成一个可移植的容器，然后在任何支持Docker的机器上运行。安装Docker的过程比较简单，你可以参照Docker的官方文档进行操作。

二、拉取pgvector镜像

安装完Docker后，我们就可以开始拉取pgvector的Docker镜像了。在终端中运行以下命令：

docker pull pgvector/pgvector:pg16

这条命令会从Docker Hub上下载pgvector的最新版本（对应PostgreSQL 16版本）的镜像。如果你需要其他版本的PostgreSQL，可以更改镜像标签来拉取相应的版本。

三、运行pgvector容器

拉取完镜像后，我们就可以运行pgvector的容器了。在终端中运行以下命令：

docker run --name pgvector --restart=always -e POSTGRES_USER=pgvector -e POSTGRES_PASSWORD=pgvector -v /srv/tlw/pgvectordata:/var/lib/postgresql/data -p 54333:5432 -d pgvector/pgvector:pg16

这条命令会创建一个名为pgvector的容器，并在后台运行。容器的数据目录被映射到了宿主机的/srv/tlw/pgvectordata目录，容器的5432端口被映射到了宿主机的54333端口。你可以根据自己的需要修改这些设置。

四、安装和使用扩展

当容器运行起来后，我们就可以连接到pgvector数据库，并安装和使用扩展了。首先，我们需要使用psql工具连接到数据库：

psql -h localhost -p 54333 -U pgvector

然后，在psql的命令行中运行以下命令来安装vector扩展：

CREATE EXTENSION vector;

安装完扩展后，我们就可以在数据库中创建包含向量字段的表了。例如，我们可以创建一个名为items的表，其中包含一个名为embedding的向量字段：

CREATE TABLE items (id bigserial PRIMARY KEY, embedding vector(3))

代码案例，通过插入向量检索一条最相近的向量

import pg8000

# 连接到 PostgreSQL 数据库
conn = pg8000.connect(
    user="pgvector",
    password="pgvector",
    host="localhost",
    port=54333,
    database="pgvector"
)

# 创建一个游标对象
cursor = conn.cursor()

# 插入一个向量
cursor.execute("""
INSERT INTO items (embedding) VALUES
    ('[1.0, 2.0, 3.0]')
""")

# 提交事务
conn.commit()

# 检索与给定向量最相似的向量
query_vector = '[1.0, 2.0, 3.0]'
cursor.execute("""
SELECT id, embedding
FROM items
ORDER BY embedding <-> %s
LIMIT 1
""", (query_vector,))

# 获取结果
result = cursor.fetchone()
print("Most similar vector:", result)

# 关闭游标和连接
cursor.close()
conn.close()