从0到1搭建数据湖Hudi环境

一个数据小开发

已于 2024-09-24 19:50:34 修改

阅读量1w

点赞数 5

CC 4.0 BY-SA版权

分类专栏：大数据 Hudi 文章标签：大数据数据湖 Hudi Flink Spark

于 2022-04-10 21:09:20 首次发布

本文链接：https://blog.youkuaiyun.com/aaron_ch/article/details/124081018

一、目标

前面一篇博文中已经详细讲解过数据湖Hudi相关的一些基本概念，想学习下的，可以去看下。数据湖基本概念--什么是数据湖，数据湖又能干什么？为什么是Hudi_一个数据小开发的博客-优快云博客

在本地构建可以跑Flink-Hudi、Spark-Hudi等demo的环境，本地环境是arm64架构的M1芯片，所以比较特殊，如果采用Hudi官网的docker搭建，目前不支持，本人也在Hudi的github上提过此类需求，虽得到了响应，但还是在部署的时候会出问题，然后基于其实Hudi就是一种对存储格式的管理模式，此格式可以是HDFS，也可以是各大云厂商的文件存储系统，例如阿里云的OSS，华为云的OBS等，都是可以支持的，所以本地只需要部署一套Hadoop架构就可以跑起来相关的案例。

二、搭建详情

需要搭建的组件列表：

组件名	版本号	描述备注
Flink	1.14.3	Apache Flink官网就可以下载到，下载的时候，需要看清楚下载跟本地scala版本一致的flink版本
Spark	2.4.4	Apache Spark官网就可以下载到
JDK	1.8	Oracle官网就可以下载到
Scala	2.11.8	Scala官网可以下载到
maven	3.8.4	到官网下载即可
Hadoop	3.3.1	这里比较特殊，需要特殊说明下，如果本地电脑是arm64架构的，需要去下载arm64架构的 hadoop版本，如果是x86的就去下载x86的 arm64下载地址： https://archive.apache.org/dist/hadoop/common/hadoop-3.3.1/hadoop-3.3.1-aarch64.tar.gzhttps://archive.apache.org/dist/hadoop/common/hadoop-3.3.1/hadoop-3.3.1-aarch64.tar.gz x86下载地址： https://archive.apache.org/dist/hadoop/common/hadoop-3.3.1/hadoop-3.3.1-src.tar.gzhttps://archive.apache.org/dist/hadoop/common/hadoop-3.3.1/hadoop-3.3.1-src.tar.gz
Hudi	0.10.1	自己git clone到本地的idea就行，后续编译需要
MySQL	5.7