使用 Supabase 和 pgvector 构建你的 AI 驱动的搜索系统

随着 AI 技术的普及，越来越多的开发者开始寻求高效的解决方案来处理和查询大量的数据。Supabase 是一种开源的 Firebase 替代品，它建立在 PostgreSQL 之上，具有强大的 SQL 查询能力，并能与现有工具和框架简单对接。本篇博文将详细介绍如何使用 Supabase 和 pgvector 来实现向量存储（VectorStore），以支持先进的搜索功能。

技术背景介绍

Supabase 是一个开源的实时数据库和身份验证后端，基于 PostgreSQL 构建。它不仅提供了 SQL 数据库，还包括实时订阅、身份验证和存储等功能。pgvector 是一个 PostgreSQL 插件，用于存储和查询嵌入向量，使得 PostgreSQL 可以胜任机器学习相关的任务。

核心原理解析

向量搜索的核心在于计算查询向量与存储向量之间的相似度。其中，余弦相似度是常用的度量方法。通过在 PostgreSQL 中使用 pgvector 插件，我们可以在数据库层面上高效地处理向量操作。

代码实现演示

环境配置

首先，确保已安装 supabase-py 和 langchain-community:

pip install -qU supabase-py langchain-community

并启用 PostgreSQL 的 pgvector 扩展：

create extension if not exists vector;

创建数据表和函数

在 PostgreSQL 数据库中创建用于存储文档的表和用于搜索的函数：

create table documents (
  id uuid primary key,
  content text, -- 文档内容
  metadata jsonb, -- 文档元数据
  embedding vector (1536) -- 嵌入向量