
hudi
文章平均质量分 85
阿华田512
小红书 搜索阿华田512 即可获取所有专栏博客内容
展开
-
flink实战--FlinkSQl实时写入hudi表元数据自动同步到hive
为了实现hive, trino等组件实时查询hudi表的数据,可以通过使用Hive sync。在Flink操作表的时候,自动同步Hive的元数据。Hive metastore通过目录结构的来维护元数据,数据的更新是通过覆盖来保证事务。但是数据湖是通过追踪文件来管理元数据,一个目录中可以包含多个版本的文件。这一点和Hive元数据管理是不同的。所以说为了兼容Hive metastore,Hudi需要实时从Timeline同步元数据到Hive metastore。原创 2023-03-31 15:42:40 · 1547 阅读 · 1 评论 -
hudi实战-- hudi on flink 参数配置大全
1.设置单个主键2.设置联合主键。原创 2023-01-05 10:31:37 · 1144 阅读 · 0 评论 -
flink实战--flinkSQL读写hudi
简介 Apache Hudi 是目前最流行的数据湖解决方案之一,Data Lake Analytics集成了 Hudi 服务高效的数据 MERGE(UPDATE/DELETE)场景,Apache Flink 作为目前最流行的流计算框架,在流式计算场景有天然的优势,当前,Flink 社区也在积极拥抱 Hudi 社区,发挥自身 streaming 写/读的优势,同时也对 batch 的读写做了支持。Hudi on Flink写入方式 首先,Hudi 提供了一个在...原创 2021-12-29 17:23:44 · 2843 阅读 · 0 评论 -
hudi实战-- 核心点解析
在 Flink 实时流中,经常会通过 Flink CDC 插件读取 Mysql 数据,然后实时入湖到 Hudi 中。所以在执行上述操作时,需要了解 Hudi 的基本概念以及操作原理,这样在近实时往 Hudi 中写数据时,遇到报错问题,才能及时处理,本文将详细介绍hudi的核心知识点。原创 2023-01-04 15:51:05 · 1826 阅读 · 0 评论