我司使用Greenplum作为计算库,实时计算统计数据,但是数据量大了之后影响计算速度。所以将每天的数据通过Datax传输到Hive的按日分区的分区表中,用于备份,其他数据放在Greenplum中作为实时数据计算。
Greenplum内核还是PostgreSQL,所以Datax配置还是使用PostgreSQL的连接。
数据表准备
hive建表,dt作为分区字段,比如dt='20230619'
create table test(
id bigint comment '主键',
name string comment '姓名',
address string comment '地址',
update_time timestamp comment '日期'
) partitioned by (dt string)
Greenplum就是常规建表。
CREATE TABLE "public"."test" (
"id" int8 NOT NULL,
"name" varchar(255) COLLATE "pg_catalog"."default",
"address" varchar(255) COLLATE "pg_catalog"."default",
"update_time" timestamp(6),
PRIMARY KEY ("id")
)
;
ALTER TABLE "public"."test"
OWNER TO "postgres";
COMMENT ON COLUMN "public"."test"."id" IS '主键';
COMMENT ON COLUMN "public"."test"."name" IS '姓名';
COMMENT ON COLUMN "public"."test"."address" IS '地址';
COM

文章讲述了在大数据处理场景下,如何利用Datax工具将Greenplum中的实时计算数据高效地备份到Hive的按日分区表中。通过配置Datax作业,实现了从PostgreSQL内核的Greenplum到Hive的数据传输,同时提供了包括创建Hive分区表、执行数据迁移脚本以及设置定时任务的详细步骤。
最低0.47元/天 解锁文章
1994

被折叠的 条评论
为什么被折叠?



