如何更改Spark程序的HDFS复制因子？

最新推荐文章于 2025-09-16 02:36:21 发布

原创最新推荐文章于 2025-09-16 02:36:21 发布 · 294 阅读

0 ·

CC 4.0 BY-SA版权

Spark 同时被 2 个专栏收录

49 篇文章

订阅专栏

scala

23 篇文章

订阅专栏

这篇博客介绍了如何将Spark程序配置中的HDFS复制因子从默认的3降低到1，以减少数据冗余和提高效率。通过设置`dfs.replication`参数为1，可以优化存储资源的使用。

将Spark程序的HDFS复制因子从3更改为1

    val sparkConf = new SparkConf()
    sparkConf.set("spark.driver.maxResultSize", "10g")//.set("autoBroadcastJoinThresho1d","8388608000").set("spark.sql.broadcastTimeout","")

    val spark =SparkSession.builder().config(sparkConf).config("spark.sql.crossJoin.enabled","true").appName("indexSimilarity").getOrCreate()

    val hconf: org.apache.hadoop.conf.Configuration = spark.sparkContext.hadoopConfiguration
    hconf.setInt("dfs.replication", 1)