StarRocks向量索引技术详解：实现高效近似最近邻搜索-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01074/article/details/148416524

StarRocks向量索引技术详解：实现高效近似最近邻搜索

starrocks StarRocks是一个开源的分布式数据分析引擎，用于处理大规模数据查询和分析。 - 功能：分布式数据分析；大规模数据查询；数据分析；数据仓库。 - 特点：高性能；可扩展；易于使用；支持多种数据源。项目地址: https://gitcode.com/gh_mirrors/st/starrocks

概述

在当今大数据和人工智能时代，向量数据（如嵌入向量、特征向量等）的处理变得越来越重要。StarRocks作为一款高性能分析型数据库，在3.4版本中引入了向量索引功能，支持高效的近似最近邻搜索(ANNS)，为向量相似性搜索场景提供了强大的支持。

向量索引基础

什么是向量索引

向量索引是一种专门为高维向量数据设计的索引结构，它能够快速找到与查询向量最相似的向量，而无需进行暴力计算。StarRocks目前支持两种主流的向量索引算法：

IVFPQ（倒排文件与乘积量化）
HNSW（分层可导航小世界图）

索引算法对比

| 特性 | IVFPQ | HNSW | |------|-------|------| | 压缩比 | 高(约1:0.15) | 低(约1:0.8) | | 查询精度 | 需要二次精排 | 直接提供精确排序 | | 计算成本 | 较高 | 较低 | | 存储成本 | 低 | 高 | | 缓存策略 | 可调整缓存比例 | 仅支持全文件缓存 |

向量索引创建与使用

准备工作

在使用向量索引前，需要先启用该功能：

ADMIN SET FRONTEND CONFIG ("enable_experimental_vector" = "true");

创建表时定义向量索引

HNSW索引示例

CREATE TABLE hnsw (
    id BIGINT(20) NOT NULL COMMENT "",
    vector ARRAY<FLOAT> NOT NULL COMMENT "",
    INDEX hnsw_vector (vector) USING VECTOR (
        "index_type" = "hnsw", 
        "dim"="5", 
        "metric_type" = "l2_distance", 
        "is_vector_normed" = "false", 
        "M" = "16", 
        "efconstruction" = "40"
    )
) ENGINE=OLAP
DUPLICATE KEY(id)
DISTRIBUTED BY HASH(id) BUCKETS 1;

IVFPQ索引示例

CREATE TABLE ivfpq (
    id BIGINT(20) NOT NULL COMMENT "",
    vector ARRAY<FLOAT> NOT NULL COMMENT "",
    INDEX ivfpq_vector (vector) USING VECTOR (
        "index_type" = "ivfpq", 
        "dim"="5", 
        "metric_type" = "l2_distance", 
        "is_vector_normed" = "false", 
        "nbits" = "16", 
        "nlist" = "40"
    )
) ENGINE=OLAP
DUPLICATE KEY(id)
DISTRIBUTED BY HASH(id) BUCKETS 1;

关键参数详解

通用参数

index_type: 索引类型，支持hnsw和ivfpq
dim: 向量维度，必须与实际数据维度一致
metric_type: 相似度度量方式，支持l2_distance(欧式距离)和cosine_similarity(余弦相似度)
is_vector_normed: 向量是否已归一化，仅在cosine_similarity时有效

HNSW特有参数

M: 每个节点在构建时建立的连接数，影响图结构的密度和搜索效率
efconstruction: 构建时的候选列表大小，影响图构建质量和构建时间

IVFPQ特有参数

nbits: 乘积量化的精度，影响压缩率和精度
nlist: 聚类中心数量，影响搜索范围和精度
M_IVFPQ: 子向量划分数量，必须是dim的因数

为已有表添加向量索引

CREATE INDEX ivfpq_vector 
ON ivfpq (vector) 
USING VECTOR (
    "index_type" = "ivfpq",
    "metric_type" = "l2_distance", 
    "is_vector_normed" = "false",  
    "dim"="5", 
    "nlist" = "256", 
    "nbits"="10"
);

向量搜索实践

基本搜索语法

SELECT *, <vector_index_distance_func>(v1, [1,2,3]) as dis
FROM table_name
WHERE <vector_index_distance_func>(v1, [1,2,3]) <= 10
ORDER BY <vector_index_distance_func>(v1, [1,2,3]) 
LIMIT 10

搜索示例

近似搜索

SELECT id, approx_l2_distance([1,1,1,1,1], vector) 
FROM test_hnsw 
ORDER BY approx_l2_distance([1,1,1,1,1], vector) 
LIMIT 1;

标量-向量联合搜索

SELECT id, approx_l2_distance([1,1,1,1,1], vector) 
FROM test_hnsw 
WHERE id = 1 
ORDER BY approx_l2_distance([1,1,1,1,1], vector) 
LIMIT 1;

范围搜索

SELECT * FROM (
    SELECT id, approx_l2_distance([1,1,1,1,1], vector) score 
    FROM test_hnsw
) a 
WHERE score < 40 
ORDER BY score 
LIMIT 1;

精确计算

SELECT id, l2_distance([1,1,1,1,1], vector) 
FROM test_hnsw WHERE id = 1 
ORDER BY l2_distance([1,1,1,1,1], vector) 
LIMIT 1;

参数调优

HNSW搜索参数调优

SELECT 
    /*+ SET_VAR (ann_params='{efsearch=256}') */ 
    id, approx_l2_distance([1,1,1,1,1], vector) 
FROM test_hnsw 
WHERE id = 1 
ORDER BY approx_l2_distance([1,1,1,1,1], vector) 
LIMIT 1;

efsearch参数: