使用spark查询hudi表

最新推荐文章于 2024-05-14 11:17:27 发布

王富贵儿、

最新推荐文章于 2024-05-14 11:17:27 发布

阅读量1.5k

点赞数

本文链接：https://blog.youkuaiyun.com/qq_18239343/article/details/123483028

版权

大数据同时被 2 个专栏收录

6 篇文章

订阅专栏

数据库

3 篇文章

订阅专栏

该博客详细介绍了如何在大数据环境中初始化环境并使用Hudi进行数据查询。首先，通过source命令加载了bigdata_env和component_env环境，然后利用spark-shell启动客户端，并配置了内存和核心参数。接着，导入了Hudi相关的Spark SQL包，加载并注册了名为'hudi_o_org'的数据集。最后，执行了两个SQL查询，分别计算了数据行数并展示了数据表结构。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

查询数据

初始化环境

source /opt/client/bigdata_env

source /opt/client/Hudi/component_env
启动客户端

spark-shell --master yarn --driver-memory 20g --driver-cores 4 --executor-memory 12g --executor-cores 4 --num-executors 50 --conf spark.executor.memoryOverhead=4096
导入包

import org.apache.hudi.QuickstartUtils._import scala.collection.JavaConversions._import org.apache.spark.sql.SaveMode._import org.apache.hudi.DataSourceReadOptions._import org.apache.hudi.DataSourceWriteOptions._import org.apache.hudi.config.HoodieWriteConfig._
查询

val org_reader = spark.read.format("org.apache.hudi").load("hdfs://hacluster/hudi/default/o_org")org_reader.registerTempTable("hudi_o_org")

spark.sql("select count(*) from hudi_o_org").show()

spark.sql("desc hudi_o_org").show(200,false)