
Spark基础
biningo-QAQ
这个作者很懒,什么都没留下…
展开
-
在集群上运行Spark(Spark调度管理和作业执行)
前言 相比于传统的Mapreduce批处理框架,Spark的计算速度快了近10倍,一方面得益于Spark基于内存计算,减少的数据的Shuffle,另一方面还得益于Spark优秀的调度管理模块。下面是个人的一点小总结。 1、运行模式 local 用于调试 standalone Spark自带的资源调度框架 yarn mesos 2、宽窄依赖 宽依赖:父RDD只会被一个子RDD使用 一对多 多对一...原创 2019-08-24 11:19:22 · 467 阅读 · 0 评论 -
Spark-Core常用算子总结(干货)
前言 前段时间又重新回顾了一下Spark的知识,真的是 蓦然回首,那人却在,灯火阑珊处,第一遍迷迷糊糊的走马观花了一遍,一点感觉都没有,第二遍,第三遍,就会发现不一样的东西,真的是印证了孔子的那句话 温故而知新 我写这篇博客已经是我第三遍学习Spark了,将来肯定会有第四遍、第五遍… Spark分为 1、Spark-Core:Spark最核心的部分,所有的都基于Core,比如RDD的转换 2、Sp...原创 2019-08-26 11:13:26 · 668 阅读 · 0 评论