使用 Elasticsearch 实现百万级数据高效导出的实践

原创

已于 2025-03-25 13:01:29 修改 · 911 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#全文检索 #excel

于 2025-03-25 12:56:31 首次发布

在实际业务场景中，我们经常需要从 Elasticsearch（简称 ES）中导出大量数据，比如用于数据分析、备份或迁移。然而，当数据量达到百万甚至千万级别时，直接一次性导出可能会导致内存溢出、性能下降等问题。因此，我们需要采用分页查询和批量处理的方式，来实现高效的数据导出。

本文将介绍如何使用 Elasticsearch 的 `scroll` API 和 `search_after` API 来实现百万级数据的导出，并附带完整的 Java 示例代码。

一、Elasticsearch 数据导出的核心方法

1. Scroll API
Scroll API 是一种适合大批量数据导出的机制，它通过维护一个“快照”来支持长时间的分页查询。虽然 Scroll API 在旧版本中被广泛使用，但在新版本中已被标记为“仅适用于大批量数据导出”。它的主要特点是：
- 适合大数据量的全量导出。
- 需要手动清理 Scroll 上下文。

2. Search After API
Search After 是一种更现代的分页方式，它通过排序字段来实现高效的分页查询。相比 Scroll API，Search After 更轻量，且不需要维护额外的上下文。它的主要特点是：
- 更适合实时查询和增量导出。
- 需要明确的排序字段。

二、Java 实现百万级数据导出

下面我们将分别介绍如何使用 Scroll API 和 Search After API 来实现百万级数据的导出，并附上完整的 Java 示例代码。

1. 使用 Scroll API 导出数据

java：

import org.elasticsearch.action.search.SearchRequest;
import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.action.search.SearchScrollRequest;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.common.unit.TimeValue;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.search.Scroll;
import org.elasticsearch.search.builder.SearchSourceBuilder;

import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.util.List;

public class ScrollExportExample {

    private static final String INDEX_NAME = "your_index_name";
    private static final String OUTPUT_FILE_PATH = "output.csv";

    public static void main(String[] args) throws IOException {
        try (RestHighLevelClient client = new RestHighLevelClient(/* 配置客户端 */)) {
            // 初始化 Scroll 查询
            SearchRequest searchRequest = new