Spark读取ES报错EsHadoopInvalidRequest The number of slices [1632] is too large

解决Spark读取ES报错:EsHadoopInvalidRequest:Numberofslicestoolarge
文章描述了一种在使用Spark读取Elasticsearch(ES)数据时遇到的问题,错误信息为EsHadoopInvalidRequest,原因是滚动搜索的切片数超过了限制。解决方案包括修改指定索引的index.max_slices_per_scroll设置为2048,或者全局修改ES配置文件中的相同设置,然后重启服务。这两种方法都可以避免报错并允许查询执行。

Spark读取ES报错EsHadoopInvalidRequest: The number of slices [1632] is too large

1.背景

最近需要将ES指定索引中的数据使用Spark读取,进行简单处理后写入HBase,使用了如下依赖。

        <!-- spark 依赖包 -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>2.4.5</version>
        </dependency>
        <!-- scala 依赖 -->
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.11.12</version>
        </dependency>
        <!-- elasticsearch 提供整合Spark的包 -->
        <dependency>
            <groupId>org.elasticsearch</groupId>
            <artifactId>elasticsearch-spark-20_2.11</artifactId>
            <version>5.5.1</version>
        </dependency>

代码如下。

object SparkReadES {

  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf()
    conf.setAppName("read_es")
    conf.set("es.nodes", "es_host")
    conf.set("es.port", "9200")
    conf.set("es.nodes.wan.only", "true")
    conf.set("cluster.name", "es-cluset-name")
    val sc: SparkContext = new SparkContext(conf)
    val query = """{
                  |  "query": {"match_all": {}}
                  |}""".stripMargin

    val rdd: RDD[(String, String)] = EsSpark.esJsonRDD(sc, "idex/type", query)

    println(rdd.take(10).toBuffer)
    
    sc.stop()
  }

}

2.解决方法

index.max_slices_per_scroll 是 Elasticsearch 中的一个设置,用于控制每次滚动搜索操作的切片数。滚动搜索是一种在大型数据集上执行连续分页查询的机制。

当执行滚动搜索时,Elasticsearch 将结果切分为多个切片(slices),每个切片处理一部分数据。index.max_slices_per_scroll 设置决定了每次滚动搜索操作中可以使用的最大切片数。

注意:修改此设置可能会对查询性能产生影响。较大的切片数可能会增加搜索操作的负载和资源消耗。因此,建议根据实际情况进行调整,并进行基准测试以评估性能变化。

2.1 修改指定索引配置(推荐)

在Kibana的Dev Tools中使用如下指令即可。

PUT /index_name/_settings
{
  "index.max_slices_per_scroll": 2048
}

指定数量为 2048,这种方式只需要修改读取索引的设置即可,不用重启服务,并且读取完毕之后可以将该参数值改回默认的 1024。

2.2 修改ES配置

  1. 打开 Elasticsearch 配置文件,通常位于 config 目录下,名为 elasticsearch.yml
  2. 在配置文件中找到或添加以下行:index.max_slices_per_scroll: 2048
  3. 保存并关闭配置文件。
  4. 重启 Elasticsearch 以使更改生效。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小宇0926

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值