一、目标
前面一篇博文中已经详细讲解过数据湖Hudi相关的一些基本概念,想学习下的,可以去看下。数据湖基本概念--什么是数据湖,数据湖又能干什么?为什么是Hudi_一个数据小开发的博客-优快云博客
在本地构建可以跑Flink-Hudi、Spark-Hudi等demo的环境,本地环境是arm64架构的M1芯片,所以比较特殊,如果采用Hudi官网的docker搭建,目前不支持,本人也在Hudi的github上提过此类需求,虽得到了响应,但还是在部署的时候会出问题,然后基于其实Hudi就是一种对存储格式的管理模式,此格式可以是HDFS,也可以是各大云厂商的文件存储系统,例如阿里云的OSS,华为云的OBS等,都是可以支持的,所以本地只需要部署一套Hadoop架构就可以跑起来相关的案例。
二、搭建详情
需要搭建的组件列表:
组件名 | 版本号 | 描述备注 |
Flink | 1.14.3 | Apache Flink官网就可以下载到,下载的时候, 需要看清楚下载跟本地scala版本一致的flink版本 |
Spark | 2.4.4 | Apache Spark官网就可以下载到 |
JDK | 1.8 | Oracle官网就可以下载到 |
Scala | 2.11.8 | Scala官网可以下载到 |
maven | 3.8.4 | 到官网下载即可 |
Hadoop | 3.3.1 | 这里比较特殊,需要特殊说明下,如果本地电脑是arm64架构的,需要去下载arm64架构的 hadoop版本,如果是x86的就去下载x86的 arm64下载地址: x86下载地址: |
Hudi | 0.10.1 | 自己git clone到本地的idea就行,后续编译需要 |
MySQL |