一下内容整理来源于DT大数据梦工厂:
一:shuffle 性能优化
1、问题: Shuffle output file lost? 真正的原因是GC导致的!!
默认时间间隔5秒可以调大。
spark.shuffle.file.buffer
spark.shuffle.io.maxRetries
spark.shuffle.file.buffer
内存管理和二进制处理:借助应用的语义,显式管理内存,消除JVM对象模型和垃圾回收的开销
缓存感知计算:充分利用内存层级算法和数据结构
代码生成:使用代码生成,充分利用现代编译器和CPU