对需要重复计算的才使用 cache, 同时及时释放掉(unpersist)不再需要使用的 RDD避免使用 shuffle 运算.需要的时候尽量选取较优方案合理配置 Executor/Task/core 的参数,合理分配持久化/ shuffle的内存占比: driver-memory: 1Gexecutor-memory: 4~8G(根据实际需求来)num-executors: 50~100executor-cores: 2~4Tasks: 500~1000