
spark
文章平均质量分 93
半岛铁子_
那就叫小胡吧
展开
-
Spark 结构化流写入Hudi 实践
整合Spark StructuredStreaming与Hudi,实时将流式数据写入Hudi表中,对每批次数据batch DataFrame,采用Spark DataSource方式写入数据。流程与前一篇博客https://blog.youkuaiyun.com/hshudoudou/article/details/125303310?spm=1001.2014.3001.5501的配置文件一致。项目结构如下图所示:主要是 stream 包下的两个 spark 代码。注意修改 Kafka Client P原创 2022-06-16 21:23:00 · 1055 阅读 · 2 评论 -
Hudi 集成 Spark 数据分析示例(含代码流程与测试结果)
Spark 与 Hudi 进行整合,处理滴滴出行数据进行统计分析。原创 2022-06-15 20:12:57 · 1292 阅读 · 6 评论 -
Hudi 快速体验使用(含操作详细步骤及截图)
本示例要完成下面的流程:需要提前安装好hadoop、spark以及hudi及组件。spark 安装教程:https://blog.youkuaiyun.com/hshudoudou/article/details/125204028?spm=1001.2014.3001.5501hudi 编译与安装教程:https://blog.youkuaiyun.com/hshudoudou/article/details/123881739?spm=1001.2014.3001.5501注意只Hudi管理数据,不存储数据,不分析原创 2022-06-09 21:32:10 · 2152 阅读 · 0 评论 -
Spark 集群安装与部署
集群规划:三台主机的名称为:hadoop102, hadoop103, hadoop104。集群规划如下:Spark下载地址:https://spark.apache.org/downloads.html将 spark-3.0.0-bin-hadoop3.2.tgz 文件上传到 Linux 并解压缩在指定位置修改配置文件进入解压缩后路径的 conf 目录,修改 slaves.template 文件名为 slaves修改 slaves 文件,添加 work 节点修改 spark-en原创 2022-06-09 15:22:02 · 994 阅读 · 0 评论