1通过 spark-env 文件,对 spark 集群进行合理的参数设置
2在程序中,设置合理的 sparkconf 和 set property
3计算量大时,给已经缓存了的 RDD 添加 checkpoint,以减少容错带来的开销
4使用 combine 对小分区进行合并,避免过小的分区造成过多的切换任务开销
1通过 spark-env 文件,对 spark 集群进行合理的参数设置
2在程序中,设置合理的 sparkconf 和 set property
3计算量大时,给已经缓存了的 RDD 添加 checkpoint,以减少容错带来的开销
4使用 combine 对小分区进行合并,避免过小的分区造成过多的切换任务开销