DocArray项目指南：深入理解Document Index与向量相似性搜索-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00284/article/details/148755300

DocArray项目指南：深入理解Document Index与向量相似性搜索

docarray Represent, send, store and search multimodal data 项目地址: https://gitcode.com/gh_mirrors/do/docarray

什么是Document Index

Document Index是DocArray项目中一个强大的功能模块，它允许用户存储文档数据并通过向量相似性进行搜索。这一功能在现代AI应用中扮演着关键角色，特别是在以下几个方面：

神经搜索应用：构建基于语义而非关键词的搜索系统
增强LLM和聊天机器人：通过检索增强生成(RAG)技术为模型提供领域知识
推荐系统：基于内容相似性为用户推荐相关项目

向量相似性搜索原理

要理解Document Index的工作原理，我们需要先了解向量相似性搜索的基本概念：

向量表示：每个数据点（文档）被表示为高维空间中的向量（嵌入向量），这个向量应尽可能捕捉数据的语义信息
编码过程：通常使用经过训练的神经网络模型将原始数据转换为有意义的向量表示
相似性度量：使用余弦相似度、欧氏距离等指标衡量向量间的相似程度
近似最近邻(ANN)搜索：当数据量大时，采用HNSW等算法加速搜索过程，在可接受的精度损失下提高效率

DocArray的Document Index为多种向量数据库提供了统一的接口，可以将其视为**向量数据库的对象关系映射(ORM)**工具。

支持的向量数据库

DocArray目前支持以下主流向量数据库：

Weaviate
Qdrant
Elasticsearch (v7和v8)
Epsilla
Redis
Milvus
HNSWlib
InMemoryExactNNIndex（内存实现）

基础使用教程

1. 定义文档模式并创建数据

首先需要定义文档的数据结构。以下示例创建了一个包含标题、价格和128维嵌入向量的文档模式：

from docarray import BaseDoc, DocList
from docarray.typing import NdArray
import numpy as np

class MyDoc(BaseDoc):
    title: str
    price: int
    embedding: NdArray[128]

# 创建10个示例文档
docs = DocList[MyDoc](
    MyDoc(title=f"title #{i}", price=i, embedding=np.random.rand(128))
    for i in range(10)
)

2. 初始化Document Index并添加数据

使用内存实现的InMemoryExactNNIndex来存储文档：

from docarray.index import InMemoryExactNNIndex

doc_index = InMemoryExactNNIndex[MyDoc]()
doc_index.index(docs)  # 添加文档到索引

3. 执行向量相似性搜索

基于嵌入向量进行相似性查询：

query = np.ones(128)  # 创建查询向量
retrieved_docs, scores = doc_index.find(query, search_field='embedding', limit=10)

4. 文档过滤

除了向量搜索，还可以基于字段值进行过滤：

# 查找价格小于5的文档
filtered_docs = doc_index.filter({'price': {'$lt': 5}}, limit=10)

5. 组合搜索与过滤

将向量搜索和字段过滤结合使用：

query = (
    doc_index.build_query()
    .find(query=np.ones(128), search_field='embedding')  # 向量搜索
    .filter(filter_query={'price': {'$gte': 2}})  # 价格过滤
    .build()
)
retrieved_docs, scores = doc_index.execute_query(query)

使用预定义文档作为模式

DocArray提供了一些预定义文档类型（如ImageDoc和TextDoc），但直接使用它们作为Document Index模式可能会导致问题，因为这些类型没有指定嵌入向量的维度信息。

解决方案是创建自定义文档类并明确指定维度：

from docarray.documents import TextDoc
from docarray.typing import NdArray

class MyTextDoc(TextDoc):
    embedding: NdArray[128]  # 明确指定维度

# 然后可以使用这个自定义类创建Document Index