
saprk
重生之我在异世界打工
ok
展开
-
saprk的JVM调优
1. 静态内存管理机制根据Spark静态内存管理机制,堆内存被划分为了两块,Storage和Execution。Storage主要用于缓存RDD数据和broadcast数据,Execution主要用于缓存在shuffle过程中产生的中间数据,Storage占系统内存的60%,Execution占系统内存的20%,并且两者完全独立。在一般情况下,Storage的内存都提供给了cache操作,但是如果在某些情况下cache操作内存不是很紧张,而task的算子中创建的对象很多,Execution内存又相对较原创 2020-05-19 22:30:00 · 115 阅读 · 0 评论 -
Spark面对OOM问题的解决方法及优化总结
转载: http://blog.youkuaiyun.com/yhb315279058/article/details/51035631转载 2020-05-19 21:40:29 · 161 阅读 · 0 评论 -
用sample算子找数据倾斜的key
object Sample找数据倾斜的key { def main(args: Array[String]): Unit = { val wordCount = new SparkConf().setMaster("local[*]").setAppName("wordCount") val sc = new SparkContext(wordCount) val list: List[String] = List("a", "a", "a", "a", "a", "a", "a原创 2020-05-19 20:44:16 · 212 阅读 · 0 评论