flinksql使用hivecatalog的好处

文章讨论了公司使用FlinkSQL通过HiveCatalog查询第三方数据源如ES的情况。FlinkSQL将元数据存储在Hive中,查询时直接通过HiveCatalog,简化了数据源的管理,但可能引入性能损耗。使用HiveCatalog的好处包括统一管理不同数据源的元数据和避免每次查询时建立新连接。数据流涉及从数据源经FlinkSQL处理,通过Connector写入或查询第三方存储。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言:公司使用flinksql纯查hive中的表做关联让我很疑惑。(彷佛是flinksql在查hive中的表,实际是hive作为元数据存储地,查询的数据是第三方)

原因发现经过:使用flinksql查询hive中的表做关联写入es,在创建sink表时,create table if not exists hive.sbo_rt_dm.table1。其中使用的是hivecatalog,将这个表table1的元数据写入到hive表中的sbo_rt_dm数据库中。

原因:

即,用hivecatalog存储第三方(比如es)的元数据,元数据存储在hive metarstore中,真正的数据存储在第三方(比如es)而不是hdfs。

则直接用hive查询这种表,会转发给flinksql去查询第三方(比如es),性能会有损耗,不如直接用flinksql查询。

flinksql使用hivecatalog的好处:
(1)统一进行分层管理,不同的数据源都将元数据存储在hive中,方便hive做分层管理

(2)使用flinksql查询的时候,使用hivecatalog,直接select * from hive.sbo_rt_dm.table1,而不用再去使用connecter连接第三方(比如es)去创建映射表。因为hivecatalog在这张表被写入时创建在了hivecatalog中,永久保存了。

数据流

写入:hivecatalog,connector

某个数据源-flinksql(使用hivecatalog)-connector-第三方表(数据真正存储的地方)

查询:hivecatalog----select * from hive.sbo_rt_dm.table1

flinksql(使用hivecatalog)-(直接查到第三方中的数据)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值