Elasticsearch作向量数据库

原创已于 2025-01-20 10:29:08 修改 · 2.3k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#elasticsearch #人工智能 #embedding #AIGC

于 2025-01-20 10:25:26 首次发布

Elasticsearch（ES）自7.8.0版本起，支持存储和搜索向量数据，成为功能强大的向量数据库。要在ES中实现向量存储和检索，您需要创建一个包含dense_vector字段的索引，并使用适当的查询来执行相似度搜索。

以下是使用Elasticsearch作为向量数据库的基本步骤：

1. 创建索引并定义映射

首先，您需要创建一个索引，并在映射中定义一个dense_vector类型的字段来存储向量数据。dense_vector字段需要指定维度（dims），即向量的长度。

PUT /your_index
{
  "mappings": {
    "properties": {
      "your_vector_field": {
        "type": "dense_vector",
        "dims": 128  // 根据您的向量维度设置
      },
      "other_field": {
        "type": "text"
      }
    }
  }
}

在上述示例中，your_vector_field是存储向量的字段，dims指定了向量的维度。

2. 索引文档

在创建了索引后，您可以将包含向量数据的文档索引到Elasticsearch中。请确保向量数据以数组的形式提供，数组的长度应与dims匹配。

POST /your_index/_doc/1
{
  "your_vector_field": [0.1, 0.2, 0.3, ..., 0.128],
  "other_field": "Sample text"
}

在上述示例中，your_vector_field包含了一个128维的向量。

3. 执行向量相似度搜索

要执行基于向量的相似度搜索，您可以使用script_score查询，结合cosineSimilarity函数来计算查询向量与文档向量之间的相似度。

POST /your_index/_search
{
  "query": {
    "script_score": {
      "query": {
        "match_all": {}
      },
      "script": {
        "source": "cosineSimilarity(params.query_vector, doc['your_vector_field']) + 1.0",
        "params": {
          "query_vector": [0.1, 0.2, 0.3, ..., 0.128]
        }
      }
    }
  }
}

在上述查询中，params.query_vector是您要查询的向量，doc['your_vector_field']是文档中存储的向量字段。cosineSimilarity函数计算查询向量与文档向量之间的余弦相似度，结果加上1.0是为了避免得分为负值。

4. 混合检索（可选）

如果您希望结合传统的关键词搜索和向量相似度搜索，可以使用Elasticsearch的混合检索功能。这可以通过在查询中同时使用match查询和script_score来实现。

POST /your_index/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "match": {
            "other_field": "search term"
          }
        },
        {
          "script_score": {
            "query": {
              "match_all": {}
            },
            "script": {
              "source": "cosineSimilarity(params.query_vector, doc['your_vector_field']) + 1.0",
              "params": {
                "query_vector": [0.1, 0.2, 0.3, ..., 0.128]
              }
            }
          }
        }
      ]
    }
  }
}

在上述查询中，should子句包含了一个match查询和一个script_score查询，Elasticsearch会根据这两个查询的得分来排序结果。