
ClickHouse
文章平均质量分 72
大数据坚为
数据创造价值,每天进步一点点~
展开
-
基于Seatunnel2.1.0连通Hive数仓和ClickHouse的实战
背景目前公司的分析数据基本存储在 Hive 数仓中,使用 Presto 完成 OLAP 分析,但是随着业务实时性增强,对查询性能的要求不断升高,同时许多数据应用产生,比如对接 BI 进行分析等,Presto不能满足需求,在这个阶段我们引入了ClickHouse,用来建设性能更强悍,响应时间更短的数据分析平台,以满足实时性要求,但如何连通 Hive 数仓和ClickHouse呢?没错,当然是 Seatunnel 啦!01 环境准备官方推荐的 seatunnel2.1.0+spark2.4.8+sc原创 2022-03-25 16:13:21 · 1192 阅读 · 0 评论 -
基于Seatunnel连通Hive数仓和ClickHouse的实战
背景目前公司的分析数据基本存储在 Hive 数仓中,使用 Presto 完成 OLAP 分析,但是随着业务实时性增强,对查询性能的要求不断升高,同时许多数据应用产生,比如对接 BI 进行分析等,Presto不能满足需求,在这个阶段我们引入了ClickHouse,用来建设性能更强悍,响应时间更短的数据分析平台,以满足实时性要求,但如何连通 Hive 数仓和ClickHouse呢?没错,当然是 Seatunnel 啦!01 环境准备官方推荐的 seatunnel1.5.7+spark2.4.8+sc原创 2022-01-19 19:44:38 · 3842 阅读 · 0 评论 -
hive导入ClickHouse时Spark读取Hive分区错误解决
项目场景:错误由来问题描述:java.lang.RuntimeException: Caught Hive MetaException attempting to get partition metadata by filter from Hive. You can set the Spark configuration setting spark.sql.hive.manageFilesourcePartitions to false to work around this problem, ho原创 2021-12-01 15:36:53 · 3581 阅读 · 0 评论 -
Hive动态分区导入ClickHouse时出现错误
项目场景:最近在将hive导入clickhouse,全量导入没有问题,增量导入时出现问题,这里记录下来hive源表:DROP TABLE IF EXISTS dwd_test;CREATE EXTERNAL TABLE dwd_test( id string COMMENT 'ID', name string COMMENT '名字', birthday string COMMENT '生日') COMMENT 'test' PARTITIO原创 2021-12-01 14:09:51 · 705 阅读 · 0 评论 -
ClickHouse与Presto及Hive性能对比(7亿数据)
数据量总量7.6亿,机台数据Hive中数据DROP TABLE IF EXISTS dwd_ipqc_online;CREATE EXTERNAL TABLE dwd_ipqc_online( MACH_ID string COMMENT '機台ID', MACH_IP string COMMENT '機台IP', CREATE_TIME string COMMENT '創建時間', IPQC_ONLINEID string COMME原创 2021-11-30 11:00:28 · 3644 阅读 · 0 评论 -
hive亿级数据导入ClickHouse并增量更新
项目场景:hive亿级数据导入ClickHouse,并每日导入(技术工具看上文)hive中表结构: 数据量7.6亿DROP TABLE IF EXISTS dwd_ipqc_online;CREATE EXTERNAL TABLE dwd_ipqc_online( MACH_ID string COMMENT '機台ID', MACH_IP string COMMENT '機台IP', CREATE_TIME string COMMENT '創原创 2021-11-30 10:27:31 · 4138 阅读 · 1 评论 -
Shlle脚本传参调用seatunnel(原waterdrop)将hive中数据导入ClickHouse
前言公司分析数据已经存入hive,但需要输入参数计算得到很长一段时间的趋势变化数据(不固定查询),经调研ClickHouse时序优化后比较满足需求,并且ClickHouse在数据量大时最好采用DNS轮询本地表写,分布式表读的工作方式,所以需要写脚本将hive中数据导入ClickHouse,加入到原来的数仓脚本。其实可以采取kafka+spark/streaming方式批量插入clickhouse提供准实时计算,后续看需求吧开始测试:运行环境首先,假设已经安装好seatunnel1.5.1(wate原创 2021-11-29 14:06:30 · 4036 阅读 · 9 评论