使用DataX，从Greenplum将数据传输到Hive分区表中

最新推荐文章于 2024-11-08 16:23:53 发布

原创

最新推荐文章于 2024-11-08 16:23:53 发布 · 1.2k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#hive #hadoop #数据仓库

文章讲述了在大数据处理场景下，如何利用Datax工具将Greenplum中的实时计算数据高效地备份到Hive的按日分区表中。通过配置Datax作业，实现了从PostgreSQL内核的Greenplum到Hive的数据传输，同时提供了包括创建Hive分区表、执行数据迁移脚本以及设置定时任务的详细步骤。

我司使用Greenplum作为计算库，实时计算统计数据，但是数据量大了之后影响计算速度。所以将每天的数据通过Datax传输到Hive的按日分区的分区表中，用于备份，其他数据放在Greenplum中作为实时数据计算。

Greenplum内核还是PostgreSQL，所以Datax配置还是使用PostgreSQL的连接。

数据表准备

hive建表，dt作为分区字段，比如dt='20230619'

create table test(
    id bigint comment '主键',
    name string comment '姓名',
    address string comment '地址',
    update_time timestamp comment '日期' 
) partitioned by (dt string)

Greenplum就是常规建表。

CREATE TABLE "public"."test" (
  "id" int8 NOT NULL,
  "name" varchar(255) COLLATE "pg_catalog"."default",
  "address" varchar(255) COLLATE "pg_catalog"."default",
  "update_time" timestamp(6),
  PRIMARY KEY ("id")
)
;

ALTER TABLE "public"."test" 
  OWNER TO "postgres";

COMMENT ON COLUMN "public"."test"."id" IS '主键';

COMMENT ON COLUMN "public"."test"."name" IS '姓名';

COMMENT ON COLUMN "public"."test"."address" IS '地址';

COM