环境
- hadoop客户端
- hivemetastore
- spark包
1.hadoop环境
- 如果使用hdfs,则需要hadoop环境;如果仅使用s3,则需要hadoop客户端即可。
2.metastore环境
- 非必须。如果没有metastore环境,iceberg仍然可以选择hadoop环境。
3.spark的配置
- 关于iceberg-runtime包最好也放到jars下。
- 在$SPARK_HOME/conf/spark-env.sh中配置:
HADOOP_HOME=/home/xxx/hadoop-current
HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop/
- 如果使用metastore,需要在$SPARK_HOME/conf/hive-site.xml(新建)中配置metastore的地址。

本文介绍了在使用Hadoop、HiveMetastore和Spark进行数据操作时的环境配置。对于Hadoop,若只使用s3则只需客户端,否则需要完整环境。HiveMetastore非必需,但配置它可以增强功能。在Spark配置中,需指定Hadoop路径,并在使用metastore时配置其地址。最后展示了如何通过Spark-SQL进行调试并列出了一些SparkCatalyst的扩展点。
最低0.47元/天 解锁文章
678

被折叠的 条评论
为什么被折叠?



