使用 Flink Hudi 构建实时数据湖

最新推荐文章于 2024-09-03 19:36:43 发布

VqhhMobile

最新推荐文章于 2024-09-03 19:36:43 发布

阅读量135

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/VqhhMobile/article/details/133025067

Flink 专栏收录该内容

93 篇文章 ¥59.90 ¥99.00

订阅专栏

本文介绍了如何使用Flink Hudi构建实时数据湖，包括准备工作、创建Flink Hudi应用程序、运行应用程序及结果验证。通过Flink和Hudi的结合，实现流式数据的处理和存储。

数据湖是一个用于存储和管理各种数据类型的中心化存储系统。它允许组织将结构化和非结构化数据聚合在一起，并支持多种数据处理和分析工作负载。Flink Hudi（Hadoop Upserts Deletes and Incrementals）是一个基于Apache Hudi构建的流式数据湖解决方案，它结合了Apache Flink和Apache Hudi的强大功能，提供了实时数据湖的能力。

本文将介绍如何使用Flink Hudi构建实时数据湖，并提供相应的源代码示例。

1. 准备工作

在开始之前，确保你已经满足以下要求：

安装并配置Java和Maven。
安装并配置Flink集群。
熟悉Flink和Hudi的基本概念和操作。

2. 创建Flink Hudi应用程序

首先，我们需要创建一个Flink Hudi应用程序来处理流式数据，并将其写入数据湖。

import org.apache.flink.api

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

VqhhMobile

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

数据湖存储解决方案之Hudi

marui156的专栏

01-17

3941

Apache Hudi是一个Data Lakes的开源方案，Hudi是Hadoop Upserts Delete and Incremental的简写，它是由Uber开发并开源的Data Lakes解决方案。Hudi能够基于HDFS之上管理大型分析数据集，可以对数据进行插入、更新、增量消费等操作，主要目的是高效减少摄取过程中的数据延迟。官方对 Hudi 的定义如下：Apache Hudi将核心仓库和数据库功能直接引入数据湖。

使用 Flink Hudi 构建流式数据湖

数据库技术

08-30

411

本文介绍了 Flink Hudi 通过流计算对原有基于 mini-batch 的增量计算模型不断优化演进。用户可以通过 Flink SQL 将 CDC 数据实时写入 Hudi 存储，且在即将发布的 0.9 版本 Hudi 原生支持 CDC format。主要内容为： 1.背景 2.增量 ETL 3.演示一、背景近实时从 2016 年开始，Apache Hudi 社区就开始通过 Hudi 的 UPSERT 能力探索近实时场景的使用案例 [1]。通过 MR/Spark 的批处理模型，用户可以实现小时

参与评论您还未登录，请先登录后发表或查看评论

Flink集成Hudi实践

zhyaoeng

10-31

926

数据湖Hudi集成Flink

Flink CDC + Hudi + Hive + Presto 构建实时数据湖最佳实践

张伟的专栏

06-07

1689

每个文件组包含多个切片，其中每个切片包含在某个提交 / 压缩即时时间生成的基本列文件 (parquet 文件)，以及自生成基本文件以来对基本文件的插入 / 更新的一组日志文件 (*.log)。Hudi 采用 MVCC 设计,其中压缩操作会将日志和基本文件合并成新的文件片，清理操作会将未使用/较旧的文件片删除来回收 DFS 上的空间。说明：目前还没写入测试数据，Hudi 目录只生成一些状态标记文件，还未生成分区目录以及 .log 和 .parquet 数据文件，具体含义可见 Hudi 官方文档。

Hudi 数据湖技术之集成Flink

赵广陆

04-25

2021

目录 1 安装Flink 2 快速入门 2.1 集成Flink概述 2.2 环境准备 2.3 创建表 2.4 插入数据 2.5 查询数据 2.6 更新数据 3 Streaming query 3.1 创建表 3.2 查询数据 3.3 插入数据 4 Flink SQL Writer 4.1 Flink SQL集成Kafka 4.2 Flink SQL写入Hudi 4.2.1 创建Maven Module 4.2.2 消费Kafka数据 4.2.3 保存数据至Hudi 4.2.4 加载Hudi表数据

基于Flink+Hudi构建企业亿级云上实时数据湖教程（PC、移动、小

02-24

随着互联网的发展，数据的不断膨胀，从刚开始的关系型数据库到非关系型数据库，再到大数据技术，技术的不断演进最终是随着数据膨胀而不断改变，最初的数据仓库能解决我们的问题，但是随着时代发展，企业已经不满足于数据仓库，希望有更强大的技术来支撑数据的存储，包括结构化，非结构化的数据等，希望能够积累企业的数据，从中挖掘出更大的价值。基于这个背景，数据湖的技术应运而生。本课程基于真实的企业数据湖案例进行讲解，结合业务实现数据湖平台，让大家在实践中理解和掌握数据湖技术，未来数据湖的需求也会不断加大，希望同学们抓住这个机遇。项目中将以热门的互联网电商业务场景为案例讲解，具体分析指标包含：流量分析，订单分析，用户行为分析，营销分析，广告分析等，能承载海量数据的实时分析，数据分析涵盖全端（PC、移动、小程序）应用。Apache Hudi代表Hadoop Upserts anD Incrementals，管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。Hudi的出现解决了现有hadoop体系的几个问题：1、HDFS的可伸缩性限制 2、需要在Hadoop中更快地呈现数据 3、没有直接支持对现有数据的更新和删除 4、快速的ETL和建模 5、要检索所有更新的记录，无论这些更新是添加到最近日期分区的新记录还是对旧数据的更新，Hudi都允许用户使用最后一个检查点时间戳，此过程不用执行扫描整个源表的查询。本课程包含的技术：开发工具为：IDEA、WebStorm Flink1.9.0、HudiClickHouseHadoop2.7.5 Hbase2.2.6Kafka2.1.0 Hive2.2.0HDFS、MapReduceSpark、ZookeeperBinlog、Canal、MySQLSpringBoot2.0.2.RELEASE SpringCloud Finchley.RELEASEVue.js、Nodejs、HighchartsLinux Shell编程课程亮点： 1.与企业接轨、真实工业界产品 2.ClickHouse高性能列式存储数据库 3.大数据热门技术Flink4.Flink join 实战 5.Hudi数据湖技术6.集成指标明细查询 7.主流微服务后端系统 8.数据库实时同步解决方案 9.涵盖主流前端技术VUE+jQuery+Ajax+NodeJS 10.集成SpringCloud实现统一整合方案 11.互联网大数据企业热门技术栈 12.支持海量数据的实时分析 13.支持全端实时数据分析 14.全程代码实操，提供全部代码和资料 15.提供答疑和提供企业技术方案咨询企业一线架构师讲授，代码在老师的指导下企业可以复用，提供企业解决方案。版权归作者所有，盗版将进行法律维权。

使用 Flink Hudi 构建流式数据湖平台-Flink Forward Asia 2021.pdf

04-29

在本篇文章中，将会详细介绍如何使用 Apache Flink 和 Apache Hudi 构建一个流式数据湖平台。文章分为几个部分，涵盖数据湖的概念、Apache Hudi 的基础、Flink 与 Hudi 的集成，以及使用 Hudi 的案例和 Hudi 未来的...

30分钟掌握沧湖一体化：flink+hudi（干货，建议收藏）_flink hudi sink

最新发布

2401_86436868的博客

09-03

759

通过 CDC 进入到 Kafka 的数据除了落一份到离线数据仓库的 ODS 层之外，会同时按照实时数据仓库的链路，从 ODS->DWD->DWS->OLAP 数据库，最后供报表等数据服务使用。从架构图上，可以看到有一步数据修正 (重跑历史数据) 的动作，之所以有这一步是考虑到：有可能存在由于口径调整或者前一天的实时任务计算结果错误，导致重跑历史数据的情况。这个问题坑了我好几天，一度都打算放弃hudi了，表面上很正常，日志也没有任何报错，也可以看出来cdc起作用了，有数据写入，但是就是卡在。

精选资源

基于Flink+Hudi构建企业万亿级云上实时数据湖视频教程（2021新课）

11-03

给大家分享一套课程——基于Flink+Hudi构建企业万亿级云上实时数据湖视频教程（2021新课）本课程基于真实的企业数据湖案例进行讲解，结合业务实现数据湖平台，让大家在实践中理解和掌握数据湖技术，未来数据湖的需求...

实时数仓之实时数仓架构(Hudi)

道可道非常道

03-27

2494

Flink和Hudi组合实现湖仓一体架构，目前也是业界讨论比较多的一套架构方案，这也得益于Flink和Hudi社区的快速发展，对于组件的特性支持越来越丰富。历史实时数据对齐：如果底层面向业务过程设计，那么根据合理的时间戳属性，是可以严格区分历史数据和实时数据区别的，这种情况可以考虑通过离线数据补全缺失数据。事实表按照业务过程建设，一般业务过程数据不存在更新所以单个key也不存在重复发射的情况，即使存在数据重发，也可以通过ETL规则提前规避掉，这种思路对于下游数据任务加工都比较友好。

重磅！解锁Apache Flink读写Apache Hudi新姿势

xleesf

04-10

1317

欢迎关注微信公众号：ApacheHudi 1. 背景 Apache Hudi 是目前最流行的数据湖解决方案之一，Data Lake Analytics 集成了 Hudi 服务高效的数据 MERGE（UPDATE/DELETE）场景；AWS 在 EMR 服务中预安装了 Apache Hudi，为用户提供高效的 record-level updates/deletes 和高效的数据查询管理；Uber 已经稳定运行 Apache Hudi 服务 4 年多，提供了低延迟的数据库同步和高效率的查询。自 201

Hudi 集成 Minio 源码修改指南

YG9538的博客

11-20

1156

Toy Code

30分钟掌握沧湖一体化：flink+hudi

m0_66789766的博客

05-03

1167

Hudi解决了以下限制 HDFS的可伸缩性限制需要在Hadoop中更快地呈现数据没有直接支持对现有数据的更新和删除快速的ETL和建模要检索所有更新的记录，无论这些更新是添加到最近日期分区的新记录还是对旧数据的更新，Hudi都允许用户使用最后一个检查点时间戳。此过程不用执行扫描整个源表的查询 Hudi的优势 HDFS中的可伸缩性限制。 Hadoop中数据的快速呈现支持对于现有数据的更新和删除快速的ETL和建模（以上内容主要引用于：[Apache Hu

Hudi数据湖-基于Flink、Spark湖仓一体、实时入湖保姆级教学

xiaoyixiao_的博客

06-11

3873

Hudi数据湖-Flink、Spark湖仓一体、实时入湖保姆级教学

Huid学习七：Hudi与Flink集成

NC_NE的博客

07-10

4429

Hudi与Flink的集成

实时数仓之Flink基于Hudi维表Join缺陷解析及解决方案

道可道非常道

03-27

1739

在生产上遇到这种SQL 维表Join场景问题，可以采用方案一进行处理，如果团队技术比较强大，那么可以考虑方案二落地，方案三非技术大牛坐镇，不建议改造。这里对方案二三不做详细介绍，待后续更新，敬请关注。

实时数据湖 Flink Hudi 实践探索

科技很有意思

10-31

3888

本文介绍的介绍的主题是 Flink 和 Hudi 在数据湖 Streaming 方向的一些探索和实践，将会围绕以下四点展开： • Apache Hudi 背景介绍 • Flink Hudi 设计 • Hudi 应用场景 • Hudi RoadMap

Hudi on Flink 快速上手指南

Ververica的博客

03-25

3027

摘要：本文由阿里巴巴的陈玉兆分享，主要介绍 Flink 集成 Hudi 的最新版本功能以及快速上手实践指南。内容包括：背景环境准备Batch 模式的读写Streaming 读总结Tips：...

搭建Flink和Hudi本地开发环境

huashetianzu的专栏

05-22

1676

1.版本说明：Flink : 1.2.x, Hudi : 0.8.x, Scala : 2.11; 2.创建Flink项目，参考文章； 3.pom文件引入对table和sql的支持包，如下：  <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-table-api-java-bridge_${scala.binary

Flink+Hudi打造万亿级实时数据湖教程

7. 结合Flink和Hudi构建数据湖的优势：利用Flink处理实时数据流和Hudi优化数据存储与查询，构建出稳定且高效的实时数据处理系统。 8. 数据湖对业务决策的贡献：通过对关键业务指标的实时分析，帮助企业在各个方面...