Flink、Spark、Hive集成Hudi 1.0.1详细教程

Toroidals

已于 2025-02-18 11:09:33 修改

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据组件安装部署教程大数据问题处理文章标签： flink spark hive hudi flink集成hudi hive集成hudi spark集成hudi

于 2023-09-14 09:46:19 首次发布

本文链接：https://blog.youkuaiyun.com/QYmufeng/article/details/132809122

大数据组件安装部署教程同时被 2 个专栏收录

38 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

大数据问题处理

9 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了如何将Flink、Spark和Hive分别与Hudi进行集成，包括环境配置、jar包的处理、配置文件的修改以及各组件之间的交互测试。在Flink集成Hudi中，涉及内存建表和Hive Catalog同步，而在Spark集成Hudi中，重点在于Spark SQL的使用。Hive集成Hudi则包括了外部表的创建和管理。

1.最新Apache Hudi 1.0.1源码编译

2.Flink、Spark、Hive集成Hudi 1.0.1

3.flink streaming写入hudi

4.4. 重启flink-standalon集群

4.5. 测试

4.6. Flink写入hudi并同步到hive

5. 在hive中测试

1. 版本介绍

maven：3.9.9

hudi：1.0.1

Spark：3.3.2

Flink：1.15.2

Hadoop：3.3.4

Hive：3.1.3

2. Hive集成hudi

2.1. 需要的jar包依赖

hudi-1.0.1\packaging\hudi-hive-sync-bundle\target\hudi-hive-sync-bundle-1.0.1.jar
hudi-1.0.1\packaging\hudi-hadoop-mr-bundle\target\hudi-hadoop-mr-bundle-1.0.1.jar

2.2. 集成

# 复制hudi依赖到hive的lib下  
cp hudi-hive-sync-bundle-1.0.1.jar ${HIVE_HOME}/lib/
cp hudi-hadoop-mr-bundle-1.0.1.jar ${HIVE_HO

了解本专栏

超级会员免费看