原来的写法
sc.makeRDD(HashMap.toSeq).sortBy(_._2).take(firstN)
有两处这样的写法,5万条数据,计算了84分钟。
11:52:56 13:16:10
后来的写法
ListMap.toList.sortBy(_._2).take(firstN)
有两处这样的写法,172万条,不到两分钟计算完成。
其他参数
.set("spark.driver.cores", "4")
.set("spark.driver.memory", "2g")
.set("spark.executor.memory", "12g")
.set("spark.executor.cores", "8")
.set("spark.default.parallelism", "100")
.set("spark.executor.instances", "6")
通过将Spark的RDD操作替换为更高效的数据结构和算法,显著提高了大数据处理速度,从84分钟减少到不到2分钟。

986

被折叠的 条评论
为什么被折叠?



