使用Couchbase中的向量搜索进行智能查询_couchbase 向量嵌入-优快云博客

技术背景介绍

Couchbase是一种强大的分布式NoSQL数据库，广泛应用于云、移动、AI和边缘计算应用中。其向量搜索功能，作为全文搜索服务的一部分，支持在应用中进行高效的语义查询。这为开发者在实现AI驱动的应用时提供了极大的便利。

核心原理解析

Couchbase的向量搜索利用向量嵌入技术对文本进行处理，可以实现基于语义相似度的查询。这与传统的关键词匹配有根本的不同，更适合AI应用场景中模糊或语义相关的查询需求。

代码实现演示

下面，我们将通过Python代码展示如何使用Couchbase的向量搜索功能：

安装必要的库

首先，安装langchain-couchbase库以与Couchbase进行交互：

pip install -qU langchain-couchbase

连接到Couchbase集群

使用用户名和密码创建连接对象：

from datetime import timedelta
from couchbase.auth import PasswordAuthenticator
from couchbase.cluster import Cluster
from couchbase.options import ClusterOptions
import getpass

# 提示用户输入连接信息
COUCHBASE_CONNECTION_STRING = getpass.getpass("Enter the connection string for the Couchbase cluster: ")
DB_USERNAME = getpass.getpass("Enter the username for the Couchbase cluster: ")
DB_PASSWORD = getpass.getpass("Enter the password for the Couchbase cluster: ")

# 创建身份验证和集群连接
auth = PasswordAuthenticator(DB_USERNAME, DB_PASSWORD)
options = ClusterOptions(auth)
cluster = Cluster(COUCHBASE_CONNECTION_STRING, options)

# 等待集群准备就绪
cluster.wait_until_ready(timedelta(seconds=5))

配置向量存储信息

设置桶名、作用域、集合名称和搜索索引名称：

BUCKET_NAME = "langchain_bucket"
SCOPE_NAME = "_default"
COLLECTION_NAME = "default"
SEARCH_INDEX_NAME = "langchain-test-index"

from langchain_couchbase.vectorstores import CouchbaseVectorStore
from langchain_openai import OpenAIEmbeddings

# 初始化向量嵌入
embeddings = OpenAIEmbeddings(model="text-embedding-3-large")

# 创建向量存储对象
vector_store = CouchbaseVectorStore(
    cluster=cluster,
    bucket_name=BUCKET_NAME,
    scope_name=SCOPE_NAME,
    collection_name=COLLECTION_NAME,
    embedding=embeddings,
    index_name=SEARCH_INDEX_NAME,
)

添加和查询文档

添加一些示例文档并进行相似性查询：

from langchain_core.documents import Document
from uuid import uuid4

# 创建示例文档
documents = [
    Document(page_content="I had chocolate chip pancakes for breakfast.", metadata={"source": "tweet"}),
    Document(page_content="The weather forecast for tomorrow is cloudy.", metadata={"source": "news"}),
]

# 为每个文档生成唯一ID
uuids = [str(uuid4()) for _ in range(len(documents))]

# 添加文档到向量存储
vector_store.add_documents(documents=documents, ids=uuids)

# 进行相似性搜索
results = vector_store.similarity_search("What did I have for breakfast?", k=2)
for res in results:
    print(f"* {res.page_content} [{res.metadata}]")