
spark
奇妙探险家
浮光跃金,静影沉璧
展开
-
spark笔记
1,spark项目必须添加spark-core/hadoop-common/scala-library三个包2,spark支持lambda表达式,返回值须指明具体类型,如Tuple23,将结果保存为一个文件而不是多个part:rs.repartition(1).saveAsTextFile(args[1]);4,将RDD的每个元素转变为一组元素并合并为新的RDD,使用flatmap原创 2018-03-05 23:34:23 · 406 阅读 · 0 评论 -
spark错误记录
1,Task in stage had a not serializable result: lambda表达式id或某对象idSerialization stack: - object not serializable(class:...value:...)在map、mappartition、reduce等各种方法中存在不能序列化的对象,无法在节点间传输导致此错误,例如,在以上方法中可以使...原创 2018-03-08 22:58:28 · 319 阅读 · 0 评论 -
hadoop详解参考教程
Hadoop NameNode 高可用 (High Availability) 实现解析https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-name-node/hadoop2.x NameNode 的共享存储实现、切换https://www.cnblogs.com/nucdy/p/5892179.htmlhad...原创 2018-07-06 17:27:34 · 218 阅读 · 0 评论 -
spark笔记
1.org.apache.spark.api.java.*位于/home/wind/桌面/software/spark/jars/spark-core_2.11-2.1.1.jarscala.Tuple2位于/home/wind/桌面/software/spark/jars/scala-library-2.11.8.jar2.使用saveAsTextFile将文件保存到hdfs时需要导入/...原创 2017-08-04 21:24:58 · 218 阅读 · 0 评论 -
Spark常用算子
RDD:分区列表 作用在分区上的函数 依赖列表 (可选)对于PairRDD,持有一个分区器 (可选)优先适用的数据分片存储位置列表获取RDD=======================================================================来自外部文件val rdd0=sc.textFile("/hadoop/profile")来自集合...原创 2019-03-23 13:43:57 · 185 阅读 · 0 评论 -
数据倾斜
产生原因:shuffle过程中部分key占比过大,导致计算集中到个别reducer或者executor上,拖慢了整体计算时间。解决方法:1、过滤少数导致倾斜的key:shuffle前将这些key排除掉,不对其进行计算。(hive的where字句,spark的filter)2、提高shuffle操作的并行度:增加reducer数目、spark中给shuffle算子传入并行度参数,旨在减少...原创 2019-03-16 19:08:14 · 195 阅读 · 0 评论 -
Hadoop执行流程
1、shuffle2、MR on yarn运行流程3、spark通信模型4、spark执行流程建立DAG 切分stage,形成taskSet(DAGScheduler) 将taskSet发送给worker执行(TaskScheduler)从finalRDD开始自后向前递归划分stage,以shuffleDependency(宽依赖)为划分界限,每个stage...原创 2019-03-23 13:44:04 · 1257 阅读 · 0 评论