elasticsearch 遍历索引数据

博客涉及Elasticsearch和大数据相关内容,但具体信息缺失。Elasticsearch是大数据处理中常用工具,可用于数据存储、搜索等,大数据则涵盖数据采集、分析等多方面。
#-*- coding:utf8 -*-
 
from elasticsearch import Elasticsearch, helpers
import json
import pdb
 
class ElasticsearchService:
 
    def __init__(self, hosts):
        self.__elasticsearch = Elasticsearch(hosts, sniff_on_start=True, sniff_on_connection_fail=True, sniffer_timeout=60, timeout=30, retry_on_timeout=True, max_retries=5)
 
    def search_scroll(self, index, doc_type, query):
        try:
            return self.__elasticsearch.search(index=index, query=query, search_type="query_then_fetch", scroll="1m")
        except BaseException as e:
            print str(e)
            pass
 
        return {}
 
    def scroll_scan(self, scroll,scroll_id):
        try:
            resJson = self.__elasticsearch.scroll(scroll, scroll_id)
            return resJson 
        except BaseException as e:
            print str(e)
            pass
 
        return []
 
    def delete_by_query(self, index, query):
        try:
            resJson = self.__elasticsearch.delete_by_query(index=index, body=query)
            return resJson.get('deleted')
        except BaseException as e:
            print 'delete fail'
            pass
 
        return 0
 
    def update_by_query(self, index, query):
        try:
            resJson = self.__elasticsearch.update_by_query(index=index, body=query)
            return resJson.get('updated')
        except BaseException as e:
            pass
 
        return 0 
 
    def insert_bulk(self, data_lst):
        try:
            return helpers.bulk(self.__elasticsearch, data_lst, request_timeout=60) 
        except BaseException as e:
            return [0, []]
 
 
if __name__ == '__main__':
    es_hosts = ["IP:PORT"]
    baike_all_index = 'baike_index'
    baike_all_type = 'baike_all'
    elastic_service = ElasticsearchService(es_hosts)
    #这里是进行第一次查询,query中size指定每个批次的大小,返回的结果中不仅有查询到的数据,还有一个scroll_id, 这个scrool_id可以认为是下一次查询的起始位置
    res = elastic_service.search_scroll(baike_all_index, baike_all_type, {"query": {"match_all": {}},"_source": ["url"], "size": 10000})
    hits = res.get('hits')
    if hits.get('total') > 0:
        for hit in hits.get('hits'):
            print hit['_source']['url']  #这里是取我自己的数据
    while res.get('_scroll_id') and hits.get('total') > 0:
        #后续的每次查询都需要带上上一次查询结果中得到的scroll_id参数
        res = elastic_service.scroll_scan(scroll='1m', scroll_id=res.get('_scroll_id'))
        hits = res.get('hits')
        if hits.get('total') > 0:
            for hit in hits.get('hits'):
                print hit['_source']['url']

在 Java 中使用 Elasticsearch 的游标(Scroll)遍历所有数据是一种高效处理大规模数据的方式。Scroll API 的核心思想是通过初始化搜索请求,创建一个快照,并在后续批量获取数据,直到遍历完成。这种方式适用于需要处理大量数据而不需要实时性的场景。 ### Scroll API 的基本使用步骤 1. **初始化 Scroll 搜索请求** 需要构建一个 `SearchSourceBuilder` 并设置 `scroll` 时间,表示游标保持的时间。同时,设置 `size` 来定义每次批量返回的数据量。以下是一个示例代码: ```java SearchRequest searchRequest = new SearchRequest("your_index_name"); SearchSourceBuilder sourceBuilder = new SearchSourceBuilder(); sourceBuilder.query(QueryBuilders.matchAllQuery()); sourceBuilder.size(1000); // 每次返回的文档数量 sourceBuilder.scroll(TimeValue.timeValueMinutes(1L)); // 游标保持时间 searchRequest.source(sourceBuilder); ``` 2. **执行初始化搜索** 使用 `RestHighLevelClient` 发起初始搜索请求,并获取第一个批次的数据以及 Scroll ID: ```java SearchResponse response = client.search(searchRequest, RequestOptions.DEFAULT); String scrollId = response.getScrollId(); SearchHit[] hits = response.getHits().getHits(); ``` 3. **循环获取 Scroll 数据** 通过 Scroll ID 不断获取下一批数据,直到没有更多数据返回: ```java while (hits != null && hits.length > 0) { // 处理当前批次的数据 for (SearchHit hit : hits) { // 处理单个文档 System.out.println(hit.getSourceAsString()); } // 构造 Scroll 请求 SearchScrollRequest scrollRequest = new SearchScrollRequest(scrollId); scrollRequest.scroll(TimeValue.timeValueMinutes(1L)); response = client.scroll(scrollRequest, RequestOptions.DEFAULT); scrollId = response.getScrollId(); hits = response.getHits().getHits(); } ``` 4. **清除 Scroll 上下文** 遍历完成后,应手动清除 Scroll 上下文以释放资源: ```java ClearScrollRequest clearScrollRequest = new ClearScrollRequest(); clearScrollRequest.addScrollId(scrollId); client.clearScroll(clearScrollRequest, RequestOptions.DEFAULT); ``` ### Scroll 与实时性 Scroll 机制在初始化搜索时会创建一个索引数据的快照,这意味着在 Scroll 遍历过程中,对索引数据的插入、删除或更新不会影响当前的遍历结果。因此,Scroll 不适合用于需要实时数据的场景,更适合数据导出、全量处理等任务。 ### Scroll 与 Scan 的区别 Scroll 与 Scan 搜索类型不同,Scroll 是基于快照的分批次遍历,而 Scan 是一种不进行排序的搜索方式,直接从分片中拉取数据[^1]。在 Elasticsearch 的较新版本中,Scan 已被弃用,Scroll 成为更主流的选择。 ### 自定义数据处理逻辑 在遍历过程中,可以使用自定义函数来处理每一批次的数据。例如,定义一个 `Function<List<? extends Hit<? extends Map>>>, Boolean>` 类型的处理函数,并在遍历中调用它[^3]。 ### Scroll 与数据更新的结合 在某些场景下,可能需要对遍历过的数据进行标记,以防止重复处理。可以通过 `update_by_query` 方法对符合条件的数据添加一个 flag 字段,标记该数据已被处理过[^2]。 ### 查询类型 `QUERY_THEN_FETCH` 默认情况下,Elasticsearch 使用 `QUERY_THEN_FETCH` 查询类型进行搜索,即先从所有分片中获取排序信息,再根据排序结果获取文档数据。这种机制在 Scroll 中并不适用,因为 Scroll 不需要对数据进行全局排序,而是直接分批次返回数据[^4]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

会发paper的学渣

您的鼓励和将是我前进的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值