scala spark 的sc.makeRDD速度慢

最新推荐文章于 2025-10-26 15:56:04 发布

原创最新推荐文章于 2025-10-26 15:56:04 发布 · 1.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark

DataScience 专栏收录该内容

19 篇文章

订阅专栏

通过将Spark的RDD操作替换为更高效的数据结构和算法，显著提高了大数据处理速度，从84分钟减少到不到2分钟。

原来的写法

sc.makeRDD(HashMap.toSeq).sortBy(_._2).take(firstN)

有两处这样的写法，5万条数据，计算了84分钟。
11:52:56 13:16:10

后来的写法

ListMap.toList.sortBy(_._2).take(firstN)

有两处这样的写法，172万条，不到两分钟计算完成。

其他参数

      .set("spark.driver.cores", "4")
      .set("spark.driver.memory", "2g")
      .set("spark.executor.memory", "12g")
      .set("spark.executor.cores", "8")
      .set("spark.default.parallelism", "100")
      .set("spark.executor.instances", "6")