
大数据学习之路
大数据学习教程以及总结
大王的小喽罗
努力做好一颗韭菜。
展开
-
Spark 资源调度和任务调度
原创 2020-04-16 18:03:05 · 132 阅读 · 0 评论 -
spark pipiline 计算模式
原创 2020-04-16 16:29:49 · 164 阅读 · 0 评论 -
RDD 窄依赖和宽依赖
原创 2020-04-16 14:58:23 · 195 阅读 · 0 评论 -
yarn-cluster 提交任务
原创 2020-04-15 21:28:49 · 223 阅读 · 0 评论 -
yarn-client 模式提交任务
原创 2020-04-15 20:58:09 · 226 阅读 · 0 评论 -
standalone-cluster模式提交任务
原创 2020-04-13 20:46:14 · 214 阅读 · 0 评论 -
standalone-client 模式提交任务
原创 2020-04-13 20:31:01 · 349 阅读 · 0 评论 -
Spark任务执行原理
![在以上图中有四个机器节点,Driver和Worker是启动在节点上的进程,运行在JVM中的进程。1、Driver与集群节点之间有频繁的通信。2、Driver负责任务(tasks)的分发和结果的回收。任务的调度。如果task的计算结果非常大就不要回收了。会造成oom。3、Worker是Standalone资源调度框架里面资源管理的从节点。也是JVM进程。4、Master是Standal...原创 2020-04-13 20:10:35 · 212 阅读 · 0 评论 -
Spark代码流程
1、创建SparkConf对象:设置Application name 以及运行模式及资源需求。2、创建SparkContext对象。3、基于Spark的上下文创建一个RDD,对RDD进行处理。4、应用程序中要有Action类算子来触发Transformation类算子执行。5.、关闭Spark上下文对象SparkContext...原创 2020-04-13 16:03:45 · 145 阅读 · 0 评论 -
RDD 分布式弹性数据集
原创 2020-04-11 22:43:19 · 164 阅读 · 0 评论 -
java版本的spark WordCount
public class JavaSparkWordCount { public static void main(String[] args) { /** * conf * 1.可以设置spark的运行模式 * 2.可以设置spark在webui中显示的application的名称。 * 3.可以设置当前spark application 运行的资源(内存+...原创 2020-04-11 21:42:10 · 155 阅读 · 0 评论