一、ES-Hadoop导数据的时候报"Could not write all entries"异常
ES-Hadoop是一个开源的数据导入项目,支持数据从hdfs,hive,spark,storm等其它大数据服务中导入ES。
使用的时候经常报:"org.elasticsearch.hadoop.EsHadoopException:Could not write all entries [14800/14800] (Maybe ES was overloaded?). Error sample(first [5] error messages)"这种异常,这个问题是ES后台的bulk的线程池最大只支持接受200的请求数队列,超过的请求会被rejected,抛出这个异常,使用的时候建议根据情况调整客户端的并发写入请求数(调整到一个合适的阈值),另外被rejected的http请求ES-Hadoop应该是有重试机制的,默认重试三次,每次重试等待时间10秒,这是可配参数,通过修改参数"es.batch.write.retry.count"和"es.batch.write.retry.wait"修改即可。
上面提供的方案只是提供寻找客户端的最佳并发写入请求数,使得ES的写入性能最优,如果要加大索引数据的写入的性能,可通过调整refresh和flush的时间等参数来提高数据的入库速度。