
shuffle
wyc_595998412
希望在今后5年实现以下目标:1、读最好的书 2、见最优秀的人 3、走一条属于自己的路。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark调优
性能调优 分配更多资源 1.1.1、分配哪些资源?Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量1.1.2、在哪里分配这些资源?在生产环境中,提交spark作业时,用的spark-submit shell脚本,里面调整对应的参数:/usr/local/spark/bin/spark-s...原创 2018-08-26 15:32:16 · 688 阅读 · 0 评论 -
OOM(内存溢出)
Out of MemorySpark中的OOM问题不外乎以下两种情况map执行中内存溢出 shuffle后内存溢出map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions等。shuffle后内存溢出的shuffle操作包括join,reduceByKey,repartition等操作。 Spark的内存模型:任何Spa...原创 2018-08-26 15:36:24 · 923 阅读 · 0 评论 -
Apache Spark---学习总结一
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)...转载 2018-08-28 08:49:50 · 808 阅读 · 0 评论 -
RDD
中间操作(Transformations)map 用途 返回每个元素经过传入的函数func处理后形成的新分布式数据集 使用示例 map[U](f: (T) ⇒ U)(implicit arg0: ClassTag[U]): RDD[U] scala> val distData = sc.parallelize(Array(1,2,3,4,5))distDa...翻译 2018-08-25 20:43:29 · 239 阅读 · 0 评论