ElasticSearch dense_vector向量写入-Java实现

本文详细介绍了如何利用JavaHighlevelAPI对ElasticSearch中的dense_vector类型的向量进行索引,包括创建索引、单个文档的索引以及批量索引文档的步骤。示例代码展示了如何构建和执行这些操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 介绍

本文介绍了如何使用Java High level API 完成dense_vector类型向量的写入,内容包含了单个文档的索引和批量文档的索引。

2. ElasticSearch 索引设计

PUT caster_vector1
{
  "settings": {
    "number_of_replicas": 0,
    "number_of_shards": 2
  },
  "mappings": {
    "properties": {
      "my_vector": {
        "type": "dense_vector",
        "dims": 2
      },
      "my_text": {
        "type": "text"
      }
    }
  }
}

3. 索引单个文档

package com.example.elasticsearchdemo;

import org.apache.http.HttpHost;
import org.elasticsearch.action.index.IndexRequest;
import org.elasticsearch.action.index.IndexResponse;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestClient;
import org.elasticsearch.client.RestHighLevelClient;

import java.io.IOException;
import java.util.HashMap;
import java.util.Map;

public class IndexDoc {
    public static void main(String[] args) throws IOException {
        // 创建一个RestHighLevelClient对象
        RestHighLevelClient client = new RestHighLevelClient(
                RestClient.builder(new HttpHost("192.168.209.3", 9200, "http")));

        // 定义索引名称和类型名称
        String indexName = "caster_vector1";
        String typeName = "_doc";

        // 定义文档数据
        Map<String, Object> document = new HashMap<>();
        document.put("my_text", "text8 window");
        document.put("my_vector", new double[]{1, -1});

       // 创建IndexRequest对象并设置索引名称、类型名称和文档数据
        IndexRequest indexRequest = new IndexRequest(indexName, typeName).source(document);

        // 执行索引操作
        try {
            IndexResponse indexResponse = client.index(indexRequest, RequestOptions.DEFAULT);
            System.out.println(indexResponse.toString());
        } catch (IOException e) {
            e.printStackTrace();
        }

        // 关闭RestHighLevelClient对象
        client.close();
    }
}

在这个案例中,我们首先创建了一个RestHighLevelClient对象,并定义了索引名称和类型名称。然后,我们定义了文档数据,并使用Map对象来保存键值对。
接着,我们创建了一个IndexRequest对象,并通过它设置了索引名称、类型名称和文档数据。
最后,我们执行了索引操作,并输出了响应结果。如果索引成功,将会输出类似如下的信息:

IndexResponse[index=caster_vector1,type=_doc,id=hM43cYgBJNRf0nv1W09p,version=1,result=created,seqNo=6,primaryTerm=1,shards={"total":1,"successful":1,"failed":0}]

4. 批量索引文档

package com.example.elasticsearchdemo;

import org.apache.http.HttpHost;
import org.elasticsearch.action.bulk.BulkItemResponse;
import org.elasticsearch.action.bulk.BulkRequest;
import org.elasticsearch.action.bulk.BulkResponse;
import org.elasticsearch.action.index.IndexRequest;
import org.elasticsearch.action.index.IndexResponse;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestClient;
import org.elasticsearch.client.RestHighLevelClient;

import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

public class BatchIndexDoc {
    public static void main(String[] args) throws IOException {
        // 创建一个RestHighLevelClient对象
        RestHighLevelClient client = new RestHighLevelClient(
                RestClient.builder(new HttpHost("192.168.209.3", 9200, "http")));

        // 定义索引名称和类型名称
        String indexName = "caster_vector1";
        String typeName = "_doc";

       // 创建BulkRequest对象
        BulkRequest bulkRequest = new BulkRequest();

       // 定义要插入的文档数据
        List<Map<String, Object>> documents = new ArrayList<>();
        Map<String, Object> document1 = new HashMap<>();
        document1.put("my_text","text8 window");
        document1.put("my_vector", new double[]{1, -1});
        documents.add(document1);

        Map<String, Object> document2 = new HashMap<>();
        document2.put("my_text","another text");
        document2.put("my_vector", new double[]{-1, 1});
        documents.add(document2);

        // 循环遍历文档数据,将每个文档添加到BulkRequest对象中
        for (Map<String, Object> document : documents) {
            IndexRequest indexRequest = new IndexRequest(indexName, typeName).source(document);
            bulkRequest.add(indexRequest);
        }

       // 执行批量索引操作
        try {
            BulkResponse bulkResponse = client.bulk(bulkRequest, RequestOptions.DEFAULT);
            if (bulkResponse.hasFailures()) {
                for (BulkItemResponse item : bulkResponse.getItems()) {
                    if (item.isFailed()) {
                        System.out.println(item.getFailureMessage());
                    }
                }
            } else {
                System.out.println("All documents have been indexed.");
            }
        } catch (IOException e) {
            e.printStackTrace();
        }

        // 关闭RestHighLevelClient对象
        client.close();
    }
}

在这个案例中,我们首先创建了一个RestHighLevelClient对象,并定义了索引名称和类型名称。然后,我们定义了要插入的文档数据,并使用List<Map<String, Object>>来保存多个文档的键值对。

接着,我们创建了一个BulkRequest对象,并循环遍历文档数据,将每个文档添加到BulkRequest对象中。我们执行了批量索引操作,并处理了响应结果。如果有索引失败的文档,我们将输出其错误信息,否则输出所有文档均已索引成功的信息。

最后,我们关闭了RestHighLevelClient对象。

<think>好的,用户想了解Elasticsearch向量搜索的使用方法或实现方式。首先,我需要整理一下已有的引用内容,看看有哪些相关的信息。根据提供的引用,有几个关键点需要注意: 1. 引用[1]提到knn_search的优点和缺点,说明它速度快但精确度不是百分百,而且不能与Query DSL混合使用。这点很重要,用户可能需要知道如何权衡速度和准确性。 2. 引用[2]指出可以使用Python将数据写入Elasticsearch并进行搜索,还提到了具体的参考文章。用户可能需要代码示例,所以应该考虑包含Python的实现步骤。 3. 引用[3]详细说明了dense_vector字段类型从7.2.0版本开始支持,以及使用script_score进行精确knn的方法。需要解释字段定义和两种搜索方式:精确knn和近似knn。 4. 引用[4]提到了Elasticsearch和Kibana的安装确认,可能用户需要先确保环境正确设置,但问题主要关注向量搜索的使用,这部分可能不需要深入,但可能需要提及环境准备。 接下来,我应该按照用户的要求,结构清晰、分步骤回答。用户的问题是关于使用方法或实现方式,所以需要涵盖以下几个方面: - 数据准备:如何定义向量字段,如何导入数据。 - 搜索方法:精确knn和近似knn的区别与实现- 代码示例:使用Python进行操作的示例,可能包括创建索引、插入数据和执行搜索。 - 注意事项:比如性能与精度的权衡,版本兼容性等。 需要确保回答中使用正确的LaTeX格式,比如行内公式用$...$,独立公式用$$...$$,不过根据引用内容,可能数学公式较少,但如果有提到向量相似度计算,比如余弦相似度,可能需要用到。例如,余弦相似度的公式可以写成$\cos(\theta) = \frac{A \cdot B}{\|A\| \|B\|}$。 另外,用户要求生成相关问题,需要根据回答内容提出相关的问题,比如不同搜索方式的区别、优化方法、应用场景等。 需要检查引用标注是否正确,每个引用标记对应到正确的来源。例如,引用[1]提到knn_search的特点,引用[3]详细说明dense_vector和搜索方法,引用[2]提供Python实现的参考。 最后,确保回答用中文,结构清晰,分步骤说明,代码示例正确,并且符合用户提供的系统级指令,比如正确的LaTeX格式和引用标注。</think>### Elasticsearch 向量搜索的实现方式 Elasticsearch向量搜索主要依赖 `dense_vector` 字段类型和两种搜索方式:**精确 k-最近邻(kNN)** 和 **近似 k-最近邻(Approximate kNN)**[^3]。以下是具体实现步骤: --- #### 1. **定义向量字段** 在索引映射中声明 `dense_vector` 字段类型,指定向量维度: ```json PUT /my_vector_index { "mappings": { "properties": { "text_embedding": { "type": "dense_vector", "dims": 768 // 根据实际向量维度调整 }, "content": { "type": "text" } } } } ``` --- #### 2. **导入向量数据** 通过 Python 将向量数据写入 Elasticsearch[^2]: ```python from elasticsearch import Elasticsearch es = Elasticsearch("http://localhost:9200") document = { "content": "机器学习简介", "text_embedding": [0.12, 0.34, ..., -0.56] # 实际向量值 } es.index(index="my_vector_index", document=document) ``` --- #### 3. **执行向量搜索** ##### 方法 1:精确 kNN(`script_score` 查询) 通过计算向量相似度(如余弦相似度)实现: ```json GET /my_vector_index/_search { "query": { "script_score": { "query": {"match_all": {}}, "script": { "source": "cosineSimilarity(params.query_vector, 'text_embedding') + 1.0", "params": {"query_vector": [0.1, -0.2, ..., 0.8]} // 查询向量 } } } } ``` - **公式支持**:余弦相似度$\cos(\theta) = \frac{A \cdot B}{\|A\| \|B\|}$,欧氏距离$d = \sqrt{\sum (a_i - b_i)^2}$。 ##### 方法 2:近似 kNN(`knn` 查询) 通过分层导航小世界(HNSW)算法快速搜索[^1]: ```json GET /my_vector_index/_search { "knn": { "field": "text_embedding", "query_vector": [0.1, -0.2, ..., 0.8], "k": 10, "num_candidates": 100 } } ``` - **优点**:搜索速度快,适合大规模数据。 - **限制**:无法与 Query DSL 混合使用,精度略低[^1]。 --- #### 4. **混合搜索(精确 kNN + 关键词过滤)** 结合 `script_score` 和传统查询: ```json GET /my_vector_index/_search { "query": { "script_score": { "query": {"term": {"content": "机器学习"}}, "script": { "source": "cosineSimilarity(params.query_vector, 'text_embedding')", "params": {"query_vector": [...]} } } } } ``` --- ### 性能与精度权衡 | 方法 | 速度 | 精度 | 是否支持混合查询 | |------------|------|--------|------------------| | 精确 kNN | 慢 | 高 | 是 | | 近似 kNN | 快 | 中等 | 否 | ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

修破立生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值