
Spark
狂躁的辣条
这个作者很懒,什么都没留下…
展开
-
算子的分类和 宽依赖算子、窄依赖算子
一、转换算子转换算子:Transformation,懒执行,需要Action触发执行filter过滤 RDD[T]==>RDD[T],窄依赖mapRDD[T] ->RDD[O], 窄依赖flatMapRDD[T]–>RDD[[O]],一对多 ,窄依赖,mapToPairsample抽样算子 RDD[T]–>RDD[O],窄依赖sortByRDD[T...原创 2019-04-26 10:53:19 · 4703 阅读 · 0 评论 -
Spark的环境搭建
1、解压spark安装包2、配置slaves 配置从节点进入到conf 下 cp slaves.template slavesvim slaves 删除localhost 写入 node02 node033、配置主节点 配置 需要根据实际情况来配置 超出配置 可能web会访问不了cp spark-env.sh.template spark-env.shvim spa...原创 2019-04-23 22:59:11 · 186 阅读 · 0 评论 -
Spark的算子-详解
1、Transformations 转换算子特点:懒执行,需要action算子粗发执行flatMapmapmapToPairreduceByKeysortBy/sortByKeyfiltersample(true,0.1) //抽样 true 表示抽取是放回的 0.1随机抽取的概率 所以 最后的数字是不一定就是10%sample(true,0.1,100) 这样就会随...原创 2019-04-23 23:03:38 · 320 阅读 · 0 评论 -
RDD (Resilient Distributed Dateset) 弹性分布式数据集
RDD(Resilient Distributed Dateset) 弹性分布式数据集RDD不存数据, partition也是不存数据的RDD 五大特性1、RDD 是有由一系列partition 组成的 – 从hdfs 读取多少个block 就有 多少个 partition2、算子(函数)是作用在partition 上的3、RDD之间有依赖关系 – RDD2丢了 可以...原创 2019-04-23 23:04:58 · 324 阅读 · 0 评论 -
spark WARN scheduler.TaskSetManager: Lost task报错
spark提交代码发生以下错误WARN scheduler.TaskSetManager: Lost task 224.0 in stage 0.0 (TID 224, zdbdsps025.iccc.com): ExecutorLostFailure (executor 2 exited caused by one of the running tasks) Reason: Contain...转载 2019-09-27 19:59:23 · 10607 阅读 · 3 评论 -
Spark常见问题汇总
原文:https://my.oschina.net/tearsky/blog/629201注意:如果Driver写好了代码,eclipse或者程序上传后,没有开始处理数据,或者快速结束任务,也没有在控制台中打印错误,那么请进入spark的web页面,查看一下你的任务,找到每个分区日志的stderr,查看是否有错误,一般情况下一旦驱动提交了,报错的情况只能在任务日志里面查看是否有错误情况了1、O...转载 2019-09-28 20:34:11 · 1590 阅读 · 0 评论