探索Annoy：高效的近似最近邻搜索工具

最新推荐文章于 2024-12-25 22:31:11 发布

原创最新推荐文章于 2024-12-25 22:31:11 发布 · 464 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#python

探索Annoy：高效的近似最近邻搜索工具

引言

在现代应用中，快速找到与查询点最接近的数据点是一项常见需求。Annoy（Approximate Nearest Neighbors Oh Yeah）是一个C++库，能够高效实现这一功能，并提供Python绑定。本篇文章将深入探讨Annoy的使用，介绍如何利用其进行向量搜索，并探讨可能遇到的挑战和解决方案。

主要内容

什么是Annoy？

Annoy是一个用于近似最近邻搜索的工具，它通过构建基于文件的大型只读数据结构使多个进程共享同一数据。需要注意的是，Annoy是只读的，一旦建成索引后无法添加新数据。如果需要动态更新数据，建议选择其他替代方案。

安装要求

要在环境中使用Annoy，首先需要安装相关的Python库：

%pip install --upgrade --quiet annoy

此外，您还需要安装langchain-community：

pip install -qU langchain-community

使用Annoy创建VectorStore

Annoy可以通过嵌入文本创建一个VectorStore。以下是使用langchain_community库的一个示例：

from langchain_community.vectorstores import Annoy
from langchain_huggingface import HuggingFaceEmbeddings

# 初始化嵌入函数
embeddings_func = HuggingFaceEmbeddings()

# 示例文本
texts = ["pizza is great", "I love salad", "my car", "a dog"]

# 创建默认的VectorStore（角度距离作为度量）
vector_store = Annoy.from_texts(texts, embeddings_func)

# 自定义参数进行创建
vector_store_v2 = Annoy.from_texts(
    texts, embeddings_func, metric="dot", n_trees=100, n_jobs=1
)

进行相似性搜索

通过构建的VectorStore，您可以执行相似性搜索：

# 查询"food"的最相似项
vector_store.similarity_search("food", k=3)

代码示例

以下是一个完整的代码示例，展示如何使用Annoy进行文本嵌入和相似性搜索：

from langchain_community.vectorstores import Annoy
from langchain_huggingface import HuggingFaceEmbeddings

# 初始化嵌入函数
embeddings_func = HuggingFaceEmbeddings()

# 示例文本
texts = ["pizza is great", "I love salad", "my car", "a dog"]

# 使用API代理服务提高访问稳定性
vector_store = Annoy.from_texts(texts, embeddings_func)

# 执行查询
results = vector_store.similarity_search("food", k=3)

# 打印结果
for doc in results:
    print(doc.page_content)