
Spark
文章平均质量分 65
一个程序员的自我修炼
大数据 机器学习
展开
-
来,我教你spark
首先推出的spark系列,为啥要学习spark呢?spark是基于内存计算,速度更快,更时髦?spark是All-in-one,集成了流式计算(spark Streaming),即席查询(spark SQL), 机器学习(MLlib), 图处理(GraphX)于一身?不,仅仅就因为: 当然了,如果努力学习,却只是得了个“B”,那么效果确实不太好,针对前段时间对spark实践...原创 2018-04-12 13:18:10 · 706 阅读 · 0 评论 -
RDD详解_1
今天讲的是RDD。RDD是个相当抽象的概念,它是一个逻辑概念,并不是很好理解,但它确实整个spark里的一个非常核心的东西,甚至不夸张的讲,就通过RDD这个概念就能把spark整个底层机制给串起来。RDD, 英文名:residenta distributed dataset, 弹性分布式数据集。下面,就是展示我语文功底的时候了。就分析这个词,就让你知道RDD的特性。 弹性 分布式 数据集...原创 2018-04-12 13:23:07 · 721 阅读 · 0 评论 -
Spark军师之DAGScheduler
搬个凳子,捧着瓜子,让我们开始唠嗑。 首先,字面解读下“DAGScheduler”,可以理解为是一个DAG调度器,DAG又是啥呢?学术名叫:有向无环图。一个spark应用程序提交,spark引擎就是通过DAGScheduler将其切分成一个个stage。让我们先来看看DAGScheduler是在哪里起的作用的。经典图: 那这个DAGScheduler的职能到底是什么呢...原创 2018-04-12 13:38:13 · 1978 阅读 · 0 评论 -
Spark任务执行者之Executor
这次讲的是Executor,啥是Executor呢?Executor是干什么的? 当我们在生产环境中提交spark作业时,用spark-submit shell脚本里,往往需要指定一个参数:--num-executors,你可以指定为3,5。。。这难道是随便指定的?爱设多少就设多少?很显然,答案是no,首先你得根据你集群的资源情况来设定。那我们就有必要来弄清楚这个是什么...原创 2018-04-12 14:42:11 · 1513 阅读 · 0 评论 -
spark工作节点之Worker原理剖析
这节我们讲讲Worker,Worker 计算资源的实际贡献者,他要向Master汇报自身拥有多少cpu core和memory, 在master的指示下负责启动executor,executor 是执行真正计算的苦力,由master来决定该进程拥有的core和memory数值,Master 掌管整个cluster的资源,主要是指cpu core和memory,但Master自身并不...原创 2018-04-18 22:44:04 · 3124 阅读 · 0 评论 -
Spark程序的入口之SparkContext
今天讲的是sparkContext,这是spark程序的入口,每次写spark程序,首先你得: new sparkContext(conf),参数里是sparkConf,也就是一些相关配置参数。SparkContext 允许driver 应用程序通过资源管理器访问集群,这个资源管理器可以是yarn,mesos,或者是spark集群管理器。sparkContext具体干哪些活呢?细节可...原创 2018-04-18 22:50:59 · 2789 阅读 · 1 评论