同步hive数据仓库数据到Elasticsearch的工具

这是一个用于同步Hive数据仓库到Elasticsearch的工具,支持全量和增量同步,可从Impala导数据,提高效率。采用分页查询避免内存问题,适用于数据分析、报表生成场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

地址: https://github.com/TQCCC/hive_to_es

同步hive数据到Elasticsearch的工具

可选 全量(默认) 和 增量;
同时支持编写SQL产生中间结果表,再导入到ES;

已经支持从impala渠道导数据,极大提升导数据速度

采用分页查询机制,数据集过多时不会撑爆内存;

我实习期的公司的数据分析、产品、运营经常需要看各种报表,多是分析统计类需求,Elasticsearch适合做统计分析,结合Kibana可以直接生成报表!
对这类常有的统计类需求,我的通常做法是从hive数据仓库导数据表到ES,或者先用HQL或ImpalaSQL筛选出结果表,ES拿到数据再进行聚合统计,如(Date Histogram)每天、每周、每月、某人的数据。

kibana再生成各类可视化图表,最终数据直观展现!

*Elastic官方已经有了Hive integration的同步工具,但是由于使用的hive版本太低,ES又已经是最新版本,
尝试使用hive integration时一直报错,为尽快适应当前需求手动造了该轮子。*

力求简洁的配置,方便使用。


脚本使用说明

环境: Python2 Python3
命令 #python hive_to_es.py config=<配置文件路径>

配置文件使用说明: 使用.ini后缀的配置文件

;Elasticsearch地址(有多节点,地址用逗号','隔开)、用户名、密码
[es]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值