Hive数据导入ES的各种坑

最新推荐文章于 2023-06-06 17:07:34 发布

原创最新推荐文章于 2023-06-06 17:07:34 发布 · 5.1k 阅读

5 ·

CC 4.0 BY-SA版权

hive 同时被 2 个专栏收录

1 篇文章

订阅专栏

elasticsearch

1 篇文章

订阅专栏

1.mapper数量

无论什么博客还是官网，一直强调控制写入ES的mapper数量，那怎么控制mapper的数量？

1）源表的分区数目

因为

mapred.min.split.size ，

mapred.max.split.size ，

dfs.block.size

splitSize = Math.max(minSize, Math.min(maxSize, blockSize));

所以可以调节这两个参数就行。

set mapred.min.split.size = 800000000;
set mapred.max.split.size = 1073741824;

当然需要打开mege合并参数

set hive.merge.mapfiles = true #在Map-only的任务结束时合并小文件
set hive.merge.mapredfiles = true #在Map-Reduce的任务结束时合并小文件

2）控制entries和size

es.index.entries的数量不能太大，不然运行一段时间就被ES reject了。

一般控制在1000条和1mb左右可以了。

3）导入JSON数据

导入JSON数据的关键，就是表示ES的临时表，一定只能有一个

字段，不然就会报错： only one field。

4）采用临时表的方式

采用临时表的方式，非常便于添加或者减少字段。如果采用外表，

一旦字段数量不匹配，hive就报错，非常不方便。使用临时表特别方便。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sydt2011

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

将 Hive 数据导入到 Elasticsearch 的大数据项目 FastIndex

2301_79366435的博客

08-28

145

在上面的示例代码中，我们首先创建了一个 FastIndexConfig 对象，并通过 HiveConfig 配置了 Hive 的连接信息，包括 Hive 的元数据存储位置、数据库和表名。在大数据领域中，将数据从一个系统导入到另一个系统是一个常见的任务。需要注意的是，为了成功运行上述示例代码，我们需要在项目的 classpath 中包含相应的依赖项，包括 FastIndex 的核心库、Hive 的客户端库和 Elasticsearch 的客户端库。接下来，我们可以编写一个 Java 类来执行数据导入的操作。

hive数据同步到es

zahuali的博客

06-24

698

首先配置hive 到es 环境所需要的jar包 hive 到es实例 DROP TABLE IF EXISTS dim_use_year_es ; CREATE EXTERNAL TABLE dim_use_year_es( dataloadday string, use_year_code string, use_year_name string, dim_order double, lower_limit_value int, upper_limit_value int ) ST

参与评论您还未登录，请先登录后发表或查看评论

hive数据写入ES报错

曹健的博客

07-02

2856

使用插件，将hive中的数据存入ES，在向映射表中更新数据的时候报错： FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask MapReduce Jobs Launched: Stage-Stage-3: Map: 1 Reduce: 1 Cumulative CPU: 4...

hive导入数据丢失问题

分布式应用与服务器架构专栏

01-08

4662

最近在做批量导入转换数据时，出现了部分数据丢失情况，最后经过检查发现，数据里在某个字段进行转换时，出现了回车符，导致最终数据出来16列，但是目标表只有8列，所以数据就被多出来的8列数据给覆盖了，导致数据丢失（因涉及数据安全问题，这里就不方便进行截图了）。解决方式：就是在UDF里将回车符给替换掉即可。例子如下： str.replaceAll("[\\n | \\r]","");

hive中的数据导入到ES中时数据校验出错,怎么解决?

big data的博客

06-06

225

数据同步时,由于资源不足,task有被kill,重新构建task导数据时,导致数据重复插入, 插入数据时documentid又赋予了新的,导致重复。

在hive中把查询出来的数据导入数据表时报FAILED: SemanticException [Error 10096]: Dynamic partition strict mode...

森屿旅人996的博客

07-28

2429

报错如下： hive (sdw_data)> insert overwrite table SDW_DATA.SDW_LOAN_DK > partition(LN_DB_PART_ID)select * from SDA_DATA.SDA_CBOD_LNLNSLNS ; FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least one stat

hive分区表一次性导入ElasticSearch报错

weixin_43854495的博客

05-26

572

hive分区表一次性导入ElasticSearch：关键字 EsStorageHandler IndexOutOfBoundsException 工作中总会碰到Hive数据导入ElasticSearch，可以写Spark程序读Hive表，再写入ES中。同样，ElasticSearch官方也提供了一个工具，elasticsearch-hadoop.jar工具包，在hive程序中引入该包，就可以创建表与ES相关联，向该表中导入数据，数据就会存入ES中问题描述提示：写入过程中报错 IndexOutOfBo

Hive+经纬度+数据导入ES

03-04

在将Hive中的数据导入到Elasticsearch时，如果Hive表中存在一个表示地理坐标的字段（如`location`），且该字段的类型为`array<double>`，那么直接导入到Elasticsearch后可能会导致该坐标数据无法正常被识别和使用。...

Hive数据导入ElasticSearch

Jungle_hello的博客

01-05

1367

将Hive中的数据导入ES

项目实战——Spark将Hive表的数据写入ElasticSearch（Java版本）

10-24

4. **ElasticSearch数据导入**： Spark提供了`org.elasticsearch.spark.sql.ElasticsearchSpark`库，使得可以直接将DataFrame写入ElasticSearch。我们需要配置ElasticSearch的URL、索引名和映射等信息，然后调用`...

hive中定义的复杂数据类型导入到es中问题总结.doc

最新发布

03-05

由于两者各有优势，实际应用中往往需要将 Hive 中的数据导入到 ES 中进行进一步的处理。 #### 二、问题概述本文主要讨论了如何将 Hive 中定义的复杂数据类型（如 array<struct<...>>）导入到 ES 中，并解决在此...

用jest客户端将数据从hive导入elasticsearch

05-19

1、jest使用示例 2、java通过Jdbc连接hive 3、将hive数据导入到elasticsearch

hive split函数_hive数据导入elasticsearch

weixin_39725650的博客

11-30

225

实际应用中，使用Hive搭建的数仓清洗后的数据表需要对外提供实时检索，Hive众所周知底层实际上使用MapReduce在运行，速度较慢，因此需要把数据导出到外部设备，比如elasticsearch，具体操作如下：一.创建hive外部表与es关联。CREATE external TABLE dw_ods.point_snt( id string, device_co...

HIVE数据导入ES并避免字段空值占用空间

zcb_data的博客

07-20

1803

详细介绍hive数据导入es的两种不同方案

Hive中利用insert从ods加载数据到dwd异常

ForestCat的专栏

09-11

567

2021-09-12T08:23:20,736 ERROR [f53ee21b-bce6-4ddb-a0bd-9db513661e03 main] exec.Task: Failed with exception java.io.IOException: rename for src path: hdfs://yc/warehouse/gmall/dwd/dwd_start_log/dt=2021-09-10/.hive-staging_hive_2021-09-12_08-23-09_369_34240.

从Hive导入数据到ES

weixin_33672400的博客

07-01

2710

大数据方兴未艾，Hive在业界，是大数据的标配了。因此hive数据添加到ES的应用场景还是比较常见的。学习ES官方的es-hadoop, 有从hive导数据到ES. 实验可行。hive的版本： hive-1.1.0-cdh5.9.0 具体的步骤如下：step1 将elasticsearch-hadoop-hive-version.jar添加到hive wget https://artifacts....

扩展：hive插入数据到ES

世界之大

03-08

3915

Hive建表加入hive和es的相关jar包(此例以es5.5.2为例，jar去官网下载)add jar file:///data/xj6500_data/lib/elasticsearch-hadoop-5.5.2.jar;建表语句DROP TABLE IF EXISTS dim_use_year_es ;CREATE EXTERNAL TABLE dim_use_year_es( datal...

【Hive报错】FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

debimeng

12-13

2636

【场景】在hive3.1版本下执行以下语句报错 --加载数据到桶表u_demo_bk中 insert into table u_tab_bk_p select * from u_tab; 可是插入到普通表和分区表的语句是能正常执行的。【原因】最后才知道是因为资源不足的问题，可是这数据量又不大，有可能hive的机制有关，本来它的场景就是为了解决大数据的问题。【解决】最后在主节点修改了yarn-site.xml文件，添加一个参数，即：关闭虚拟内存的检测，最后完整的内容如下： <co

hive导入数据到es

yinxiaoyi的专栏

10-09

1088

HIVE数据导入ES

Java实现Spark同步Hive数据至ElasticSearch的无缝更新

**SparkOnHiveToEs_v1**：文件名称中的“SparkOnHiveToEs”指的是Spark操作Hive数据然后将数据导入到ElasticSearch的过程。文件版本“v1”可能表示这是一个初始版本的项目实战，或者是最基础的版本，为进一步的学习...