Flink使用指南: Kafka流表关联HBase维度表

本文介绍了如何使用Flink 1.12.4与Kafka 2.4、HBase 2.3构建实时宽表,通过Kafka流表和HBase维度表的连接,利用TemporalJoin确保数据准确性。作者分享了自定义connector、Rowkey反转UDF及Blink planner在FlinkSQL中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

系列文章目录

Flink使用指南: Watermark新版本使用

Flink使用指南: Flink SQL自定义函数

前言

Flink:1.12.4

Kafka:2.4

HBase: 2.3

在企业实时数仓建设过程中,需要制作DWD明细层的业务宽表,结合业务场景调研了一下使用Flink做实时宽表的方案,发现使用窗口join可能存在丢数据的风险,最终还是选择了稳定的Kafka + HBase的架构方案实现,该方案可以支撑大并发量的查询关联,而且保证了数据的准确性。

 

maven依赖

<dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-scala_2.11</artifactId>
            <version>${flink.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-scala_2.11</artifactId>
            <version>${flink.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-statebackend-rocksdb_2.11</artifactId>
            <version>${flink.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-kafka_2.11</artifactId>
            <version>${flink.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-json</artifactId>
            <version>1.12.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-table-api-java-bridge_2.11</artifactId>
            <version>${flink.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-table-api-scala-bridge_2.11</artifactId>
            <version>${flink.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-table-common</artifactId>
            <version>${flink.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-table-planner_2.11</artifactId>
            <version>${flink.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-table-planner-blink_2.11</artifactId>
            <version>${flink.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-clients_2.11</artifactId>
            <version>${flink.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-hbase-2.2_2.11</artifactId>
            <version>${flink.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-jdbc_2.11</artifactId>
            <version>${flink.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka_2.11</artifactId>
            <version>2.4.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka-clients</artifactId>
            <version>2.4.1</version>
        </dependency>
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.47</version>
        </dependency>

 

创建Kafka流表

CREATE TABLE kafka_do_master (
name STRING,
age INT
) WITH (
  'connector' = 'kafka',
  'topic' = 'xxx',
  'properties.bootstrap.servers' = 'xxxx:9092',
  'properties.group.id' = 'test-1',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'json'
)

经过测试,kafka字段顺序无需和Json顺序一致,底层的JsonObject应该是个HashMap获取的。

创建HBase维度表

CREATE TABLE dim_hbase (
rowkey STRING,
info ROW<som_sysno STRING>,
PRIMARY KEY (rowkey) NOT ENFORCED
) WITH (
'connector' = 'hbase-2.2',
'table-name' = 'default:xxx',
'zookeeper.quorum' = 'xxx:2181',
'zookeeper.znode.parent' = '/hbase'
)

这里的字段顺序也无需和HBase的存储顺序一致。

创建Sink表

CREATE TABLE flink_do_so_master (
name VARCHAR,
age BIGINT,
som_sysno VARCHAR,
PRIMARY KEY (name,som_sysno) NOT ENFORCED
) WITH (
   'connector' = 'adbpg',
   'url' = 'jdbc:postgresql://xxx:5432/test',
   'tablename' = 'xxx',
   'username' = 'xx',
   'password' = 'xx',
   'maxretrytimes' = '2',
   'batchsize' = '100',
   'connectionmaxactive' = '5',
   'conflictmode' = 'upsert',
   'usecopy' = '0',
   'targetschema' = 'test',
   'exceptionmode' = 'ignore',
   'casesensitive' = '0',
   'writemode' = '2',
   'retrywaittime' = '200'
)

因为博主是用的阿里云的ADB for Postgresql, 开源的flink并没有支持这个Connector,自己实现了一个自定义的connector。

计算逻辑

insert into flink_do_so_master
select kafka_do_master.*,dim_hbase.info.* from kafka_do_master
left join dim_hbase
FOR SYSTEM_TIME AS OF kafka_do_master.proctime
on reverseKey(kafka_do_master.name) = dim_hbase.rowkey

自己实现了一个Rowkey反转的UDF函数,使用了Flink的Temporal Join语法关联HBase,其中 FOR SYSTEM_TIME AS OF kafka_do_master.proctime 这是Temporal Join固有的Join语法,使用处理时间proctime,如果程序使用的是EventTime事件事件,则需要改成rowtime,并且在kafka流表中指定watermark,还有在测试过程中发现必须在kafka流表中声明rowtime字段,不然会报错。

Temporal Join 目前必须要在Blink planner中使用,且能够支持Temporal Join的数据库Connector必须要实现LookupableTableSource 接口,LookupableTableSource接口意味着可以用一个或者多个key去查询外部存储,目前JDBC,HBase,Hive支持该特性。

总结

就目前各大公司的实时数仓现状,不少都是在使用Temporal Join作为宽表关联。在使用Flink sql的过程中还是发现了Flink sql对某些场景下还待完善的功能,日常也会遇到些Bug,需要改源码的问题,希望以后能够有时间记录下来,给大家解读源码。

欢迎大家扫一扫下面个人微信,我会拉大家进入大数据技术交流群,一起学习一起进步吧。

### Flink 中 Hive 维度表HBase 维度表的区别及使用场景 #### 1. 数据存储结构差异 Hive 是一种基于 Hadoop 的数据仓库工具,主要用于批量处理大规模静态数据集。其维度表通常以文件形式存储在分布式文件系统(如 HDFS)上,并通过 SQL 查询接口访问[^1]。而 HBase 是一个分布式的 NoSQL 数据库,专为高并发、低延迟的随机读写设计,适合用于频繁更新的小规模记录存储[^2]。 #### 2. 实时性支持能力 由于 Hive 基于批处理架构,在实时查询方面存在一定的延时瓶颈。当 Kafka 数据需要与最新的 Hive 动态信息关联时,早期版本的 Flink 可能无法及时获取最新更新的数据[^3]。相比之下,HBase 提供了更强的实时性和一致性保障,能够快速响应式计算的需求,尤其是在涉及高频次修改的操作场景下现优异[^4]。 #### 3. 开发复杂度对比 对于熟悉传统关系型数据库或者大数据生态系统的开发者而言,利用 Flink-SQL 对接 Hive 更加直观简便,因为它延续了标准 SQL 的语法风格。然而,如果业务逻辑较为复杂,比如涉及到多种不同类型的转换规则定义,则可能需要用到像 Scala 这样的编程语言来编写自定义函数或类,此时对接 HBase 就显得稍微繁琐一些。 #### 4. 应用案例分析 - **Hive 维度表适用场合** - 当前大部分离线数据分析任务都可以采用这种方式完成; - 如果源数据量较大且变动频率较低的话,那么选择 Hive 作为外部依赖会更加经济高效。 - **HBase 维度表推荐领域** - 需求侧重于毫秒级反馈速度的应用程序; - 用户行为跟踪、广告精准投放等领域经常要用到这种即时性强的技术方案。 ```python from pyflink.dataset import ExecutionEnvironment from pyflink.table import StreamTableEnvironment, DataTypes from pyflink.table.descriptors import Schema, OldCsv, FileSystem env = ExecutionEnvironment.get_execution_environment() t_env = StreamTableEnvironment.create(env) # Example of connecting to a Hive table using PyFlink t_env.connect(FileSystem().path('/path/to/hive/table')) \ .with_format(OldCsv() \ .field('column_name', DataTypes.STRING())) \ .with_schema(Schema() \ .field('column_name', DataTypes.STRING())) \ .create_temporary_table('hive_table') result = t_env.sql_query("SELECT * FROM hive_table") ```
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

XuTengRui

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值