使用Vald进行高效近似最近邻搜索的实践指南-优快云博客

本文链接：https://blog.youkuaiyun.com/fgayif/article/details/146465566

在现代人工智能和数据科学应用中，快速搜索和数据匹配相关性是核心任务之一。Vald 是一个高效可扩展的分布式快速近似最近邻（ANN）稠密向量搜索引擎，专门为此类任务设计。在本文中，我们将介绍如何利用Vald实现高效的相似性搜索。本指南将带您逐步体验Vald的强大功能，同时展示实际可操作的代码示例。

技术背景介绍

Vald 旨在解决在大型数据集上执行快速近似最近邻搜索的问题。通过分布式架构和高效的向量操作，Vald为搜索和匹配任务提供了出色的性能。AI应用例如推荐系统、图像和文本检索，都依赖于这些功能。

核心原理解析

Vald利用稠密向量来表示数据点，然后通过高效的算法在这些向量空间中执行近似最近邻搜索。这种方法可以显著降低搜索时间，并在大型数据集上保持高准确性。

代码实现演示

以下是使用Vald进行相似性搜索及其其他高级功能的代码示例：

# 安装所需库
%pip install --upgrade --quiet vald-client-python langchain-community

# 导入必要模块
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import Vald
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_text_splitters import CharacterTextSplitter

# 加载和处理文档
raw_documents = TextLoader("state_of_the_union.txt").load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
documents = text_splitter.split_documents(raw_documents)

# 生成向量嵌入
embeddings = HuggingFaceEmbeddings()

# 创建Vald数据库
db = Vald.from_documents(documents, embeddings, host="localhost", port=8080)

# 执行相似性搜索
query = "What did the president say about Ketanji Brown Jackson"
docs = db.similarity_search(query)
print(docs[0].page_content)

# 通过向量进行相似性搜索
embedding_vector = embeddings.embed_query(query)
docs = db.similarity_search_by_vector(embedding_vector)
print(docs[0].page_content)

# 带分数的相似性搜索
docs_and_scores = db.similarity_search_with_score(query)
print(docs_and_scores[0])

# 最大边际相关性搜索 (MMR)
retriever = db.as_retriever(search_type="mmr")
retriever.invoke(query)

# 或者直接使用最大边际相关性搜索
db.max_marginal_relevance_search(query, k=2, fetch_k=10)