将Spark程序的HDFS复制因子从3更改为1
val sparkConf = new SparkConf()
sparkConf.set("spark.driver.maxResultSize", "10g")//.set("autoBroadcastJoinThresho1d","8388608000").set("spark.sql.broadcastTimeout","")
val spark =SparkSession.builder().config(sparkConf).config("spark.sql.crossJoin.enabled","true").appName("indexSimilarity").getOrCreate()
val hconf: org.apache.hadoop.conf.Configuration = spark.sparkContext.hadoopConfiguration
hconf.setInt("dfs.replication", 1)


这篇博客介绍了如何将Spark程序配置中的HDFS复制因子从默认的3降低到1,以减少数据冗余和提高效率。通过设置`dfs.replication`参数为1,可以优化存储资源的使用。
194

被折叠的 条评论
为什么被折叠?



