第1节 hudi 0.9编译 CDH6.3.2环境

本文档详细介绍了如何在Linux环境中搭建Maven和Git,然后下载并编译Hudi源码,包括修改配置以使用阿里云镜像,最后展示了成功编译后的文件目录结构。在编译过程中,尽管出现了一些警告,但最终成功构建了Hudi项目。

1.准备编译环境

1) Maven安装

下载地址 Index of /dist/maven/maven-3/3.6.1/binaries (apache.org)

(1)把apache-maven-3.6.1-bin.tar.gz上传到linux的/data/software目录下

(2)解压apache-maven-3.6.1-bin.tar.gz到/data/module/目录下面

tar -zxvf apache-maven-3.6.1-bin.tar.gz -C /data/module/

(3)修改apache-maven-3.6.1的名称为maven

(4)添加环境变量到/etc/profile中

[stars@stars-bigdata-01 module]# vim /etc/profile
#MAVEN_HOME
export MAVEN_HOME=/data/module/maven
export PATH=$PATH:$MAVEN_HOME/bin

(5)测试安装结果

source /etc/profile  

mvn -v 

(6)修改setting.xml,指定为阿里云

vim maven/conf/settings.xml
<!-- 添加阿里云镜像-->
<mirror>
        <id>nexus-aliyun</id>
        <mirrorOf>central</mirrorOf>
        <name>Nexus aliyun</name>
        <url>http://maven.aliyun.com/nexus/content/groups/public</url>
</mirror>

2) Git安装

yum install git
git --version
git version 1.8.3.1

2 下载源码

CDH(Cloudera Distribution of Hadoop)是一种用于大数据处理的分布式计算框架,它包含了Hadoop、Spark、Hive等组件,用于存储、处理和分析大规模的数据。 Hudi是一种开源数据湖工具,它 stands for Hadoop Upserts Deletes Incremental,可以在数据湖中实现增量更新和删除操作。Hudi为大规模数据处理提供了高性能、低延迟和可靠性的解决方案,可以轻松处理PB级别的数据。 CDH 6.3.2Hudi的结合,使得在CDH集群上使用Hudi变得更加简单。通过CDH的集成,用户可以直接在CDH集群中安装和配置Hudi,无需额外的安装步骤。此外,CDH还提供了一些工具和管理界面,帮助用户更好地管理和监控Hudi在集群中的运行。 使用CDH 6.3.2搭配Hudi,可以实现以下功能: 1. 增量更新和删除操作:Hudi可以在数据湖中实现增量更新和删除操作,从而减少数据处理的时间和资源消耗。 2. 事务支持:HudiCDH集群中提供了事务支持,确保数据的一致性和可靠性。 3. 数据索引和查询:Hudi支持数据索引和查询,能够快速检索和分析大规模的数据。 4. 增量同步和复制:Hudi还提供了增量同步和复制功能,可以将数据湖中的数据复制到其他系统或平台上进行进一步的处理和分析。 综上所述,CDH 6.3.2Hudi的结合为大数据处理提供了更加灵活和高效的解决方案。通过它们的组合,用户可以在CDH集群中轻松地实现增量更新、删除和查询操作,从而更好地管理和处理大规模的数据。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值