hive写入Elasticsearch参数设置

最新推荐文章于 2023-03-22 09:06:04 发布

转载最新推荐文章于 2023-03-22 09:06:04 发布 · 2.9k 阅读

本文介绍如何通过调整Hive中的输入切分大小来增加映射器的数量，以及Elasticsearch-Hadoop中批量处理大小等参数的设置方法。

1. 在hive中增加number of Hadoop input splits

Reduce the input split size from the default value. The mappers will get increased.

SET mapreduce.input.fileinputformat.split.maxsize;

参考：http://stackoverflow.com/questions/30222032/increase-number-of-hive-mappers-in-hadoop-2

参考：https://hadoopjournal.wordpress.com/2015/06/13/set-mappers-in-pig-hive-and-mapreduce/

2. Elasticsearch-Hadoop参数

es.batch.size.bytes (default 1mb)

es.batch.size.entries (default 1000)

es.batch.write.refresh (default true)

参考：https://www.elastic.co/guide/en/elasticsearch/hadoop/current/performance.html#_decrease_bulk_size

参考：https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Widrow

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

ES in Hive

阿里Darker

10-10

2370

ElasticSearch已经可以与YARN、Hadoop、Hive、Pig、Spark、Flume等大数据技术框架整合起来使用，尤其是在添加数据的时候，可以使用分布式任务来添加索引数据，尤其是在数据平台上，很多数据存储在Hive中，使用Hive操作ElasticSearch中的数据，将极大的方便开发人员。这里记录一下Hive与ElasticSearch整合，查询和添加数据的配置使用过程。基于Hi

六、海量hive数据写入es优化

weixin_43053022的博客

08-16

4140

场景: 业务部门将客户画像结果表通过hive映射到es表，其中结果表600W条数据，但每条数据接近2W个标签，数据入到es后主要场景是多字段组合过滤查询后聚合求和。优化思路 es默认最大字段数是1000,需要增大字段数 hive端优化： hive的取数据的速度大于写入到es的速度，es会由于集群规模问题或者资源问题无法同时接收hive过多的并发数。由此hive端主要优化是减小map数 set...

参与评论您还未登录，请先登录后发表或查看评论

大数据——Hive on ElasticSearch 配置实战(CDH6.3.2)

caron的博客

02-03

806

1、下载相应的jar包 2、 2、添加jar配置 HIVE_AUX_JARS_PATH=/usr/share/hive 3、建表语句 1、Elecsearch 存在 { "_index": "es_hive_test", "_type": "doc", "_id": "w", "_score": 1, "_source": { "id": "23", "area": "hangzhou", "name": "lisi5"

hive数据写入elasticsearch

weixin_34081595的博客

11-14

641

2019独角兽企业重金招聘Python工程师标准>>> ...

Hive on ES

weixin_33794672的博客

06-25

424

　　ES对于类似数据库的SQL查询很无力，可以使用Hive on ES来实现SQL的查询。2个百万级的索引做关联时，需要大概1分多钟，基于es2.1版本。 1.将elasticsearch-hadoop-2.1.1.jar拷贝到hive/lib目录下。 2.创建hive表 create external table test( name string, ...

[博学谷学习记录]超强总结，用心分享|Hive导入数据到ES

weixin_43814165的博客

03-22

402

Hive导入数据到ES

项目实战——Spark将Hive表的数据写入ElasticSearch（Java版本）

LXWalaz1s1s的博客

10-24

3206

目录项目实战——将Hive表的数据直接导入ElasticSearch 此篇文章不用写代码，简单粗暴，但是相对没有那么灵活；底层采用MapReduce计算框架，导入速度相对较慢！项目实战——Spark将Hive表的数据写入ElasticSearch（Java版本）此篇文章需要Java代码，实现功能和篇幅类似，直接Java一站式解决Hive内用Spark取数，新建ES索引，灌入数据，并且采用ES别名机制，实现ES数据更新的无缝更新，底层采用Spark计算框架，导入速度相对文章1的做法较快的多！

使用spark将hive数据写入elasticsearch或hbase

weixin_42188589的博客

12-19

1713

使用spark将hive数据写入elasticsearch或hbase将hive或者其他关系型数据库中的数据搬迁到es或hbase代码依赖socket入口：MyServerThread实现工具类PropertiesUtil配置文件config.properties客户端MyClient测试执行脚本将hive或者其他关系型数据库中的数据搬迁到es或hbase 需求：因为需要使用hadoop能力，所...

HIVE导出数据到Elasticsearch及ES的索引优化

weixin_42240930的博客

05-07

1666

一、导入须知 1、ES作为搜索引擎不只是数据的简单存储，向ES导入数据需要做相应的设置，如手动建立mapping。 2、ES本身的安装参数配置已经很优秀，绝大数情况下不需要修改除内存大小以外的参数。 3、想最佳的优化存储和查询的性能，就要有针对性的根据每一个字段的功能设置相关的属性，es作为搜索引擎通常会给每个字段动态自动映射相应的字段类型并设置最全的默认属性，但是过于冗余，而且动态自动映射的数...

通过ES-Hadoop实现Hive读写Elasticsearch数据

Cloud Tech的博客

09-30

2314

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具，可以让数据在Elasticsearch和Hadoop之间双向移动，无缝衔接Elasticsearch与Hadoop服务，充分使用Elasticsearch的快速搜索及Hadoop批处理能力，实现交互式数据处理。本文介绍如何通过ES-Hadoop实现Hadoop的Hive服务读写Elasticsearch数据。 Hadoop生态的优势是处理大规模数据集，但是其缺点也很明显，就是当用于交互式分析时，查询时延会比较长。而Ela

hive学习总结(6)—hive参数设置方法

cumtheima的专栏

11-23

386

1. 参数声明：在hive的CTL环境中设置（临时）比如：set hive.fetch.task.conversion=more; 2.命令行设置：使用hadoop命令设置（临时） hive --hiveconf hive.fetch.task.conversion=more; 3.配置文件：--${HIVE_HOME}/conf/hive-site.xml里面加入以下配...

es查询入hive的优化(速度提升3倍＋)

weixin_39031707的博客

06-03

2423

优化之前，es查询圈人，入hive 可能需要2h+的时间，如下为读了800M数据的时间，已经40min了，读完估计2h+ 优化以后：这里设置了scoll.size为1000，插入完成只要40分钟，主要的瓶颈在写入hive这块，速度提高了3倍还要多1.只查询需要入库的字段，减少网络io，如下es.read.field.include设置以后，返回的字段都没了，所以网络io减少了、、 val ...

hive参数配置调优

manweizhizhuxia的博客

03-16

3413

参数设置方式 1、配置文件（全局有效） 2、命令行参数（对 hive 启动实例有效） 3、命令行参数声明（对 hive 的连接 session 有效）作业设置 set mapreduce.job.name=${fileName}_0; --作业名称set mapreduce.job.priorite=NORMAL; --作业优先级set mapreduce.job.queuename=default; --作业队列适当加大map set mapreduce.input.fileinputform

hive集成Elasticserch

songjifei的专栏

03-06

647

hive映射elasticserch的实践与优化，问题总结

Hive同步数据到ES

07-07

2274

第一步：下载需要的jar包，必须的是es-hadoop的包 elasticsearch-hadoop-5.5.1.jar 下载地址：http://download.elastic.co/hadoop/到官网下载与ES一致的版本，比如ES版本是5.5.1，则下载elasticsearch-hadoop-5.5.1.zip第二步：如下是放到hadoop根目录的jars目录下第三步：在hive中添加jar包，ADD JAR hdfs://nmcluster/user/root/test/es_hadoop/

【Elasticsearch】Elasticsearch查询参数batched_reduce_size的解释

九师兄

06-01

1105

1.概述当我们使用Elasticsearch查询数据时，如果数据量非常大时，会命中大量分片中的大量数据，可能会造成集群内存异常，此时可以通过一个高级参数batched_reduce_size进行控制。使用方法如下： GET user_order/_search?q=user:kimchy&batched_reduce_size=256 或者： POST /user_order/_search { "query" : { "term" : { "user" : "ki.

Elasticsearch技术解析与实战（七）Elasticsearch批量操作

weixin_30599769的博客

09-11

432

批量查询 1.如果查询的document是不同index下的不同type种的话 GET /_mget { "docs" : [ { "_index" : "test_index", "_type" : "test_type", "_id" : 1 }, { ...

hive 数据导入 es

heqingcool的博客

06-07

1279

es-hadoop插件上传es-hadoop插件到集群准备hive数据 -- 连接hive beeline -u "jdbc:hive2://worker-1:10000/;principal=hive/worker-1@HAINIU.COM" -- 创建临时表 create table if not exists xiniu.hivetable( pk string, col1 int, col2 boolean, col3 timestamp, col4 st

谈谈深度学习中的 Batch_Size