Vearch：云原生分布式向量数据库，助力AI应用中的高效相似性搜索-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00610/article/details/142513002

Vearch：云原生分布式向量数据库，助力AI应用中的高效相似性搜索

vearch A distributed system for embedding-based vector retrieval 项目地址: https://gitcode.com/gh_mirrors/ve/vearch

项目介绍

Vearch 是一款云原生分布式向量数据库，专为 AI 应用中的嵌入向量相似性搜索而设计。它能够高效地处理大规模向量数据的存储、索引和检索，适用于各种需要快速相似性搜索的场景。Vearch 不仅支持向量搜索，还支持标量过滤，提供了混合搜索的能力，使其在实际应用中更加灵活和强大。

项目技术分析

Vearch 的核心技术架构包括 Master、Router 和 PartitionServer（PS）三个主要组件：

Master：负责模式管理、集群级元数据和资源协调。
Router：提供 RESTful API，包括 upsert、delete、search 和 query，负责请求路由和结果合并。
PartitionServer (PS)：托管文档分区，基于 Raft 协议进行复制。Gamma 是基于 faiss 实现的核心向量搜索引擎，提供向量和标量的存储、索引和检索能力。

Vearch 的技术优势在于其高性能、高可用性和可扩展性。它能够在毫秒级时间内从数百万对象中检索向量，并通过复制和弹性扩展实现高可靠性和可扩展性。

项目及技术应用场景

Vearch 的应用场景非常广泛，特别是在需要高效相似性搜索的 AI 应用中：

视觉搜索系统：Vearch 可以用于构建完整的视觉搜索系统，索引数十亿张图像。结合对象检测和特征提取插件，Vearch 能够实现高效的图像检索。
自然语言处理：在自然语言处理领域，Vearch 可以作为向量存储和检索的后端，支持如 Langchain、LlamaIndex 和 Langchaingo 等框架。
推荐系统：在推荐系统中，Vearch 可以用于存储和检索用户和物品的嵌入向量，实现个性化推荐。

项目特点

Vearch 具有以下显著特点：

混合搜索：支持向量搜索和标量过滤，提供更灵活的搜索能力。
高性能：快速向量检索，能够在毫秒级时间内处理大规模数据。
可扩展性和可靠性：通过复制和弹性扩展，确保系统的高可靠性和可扩展性。
云原生设计：支持在 Kubernetes 上部署，便于云环境中的管理和扩展。
丰富的 SDK 支持：提供 Python、Go 和 Java（开发中）等多种语言的 SDK，方便开发者集成和使用。

快速开始

Vearch 提供了多种部署方式，包括在 Kubernetes 上部署、使用 Docker Compose 启动以及通过 Docker 快速启动。开发者可以根据自己的需求选择合适的部署方式，快速上手使用 Vearch。

# 在 Kubernetes 上部署
$ helm repo add vearch https://vearch.github.io/vearch-helm
$ helm repo update && helm install my-release vearch/vearch

# 使用 Docker Compose 启动
$ cd cloud
$ cp ../config/config.toml .
$ docker-compose --profile standalone up -d