
大数据
yezhirm7
这个作者很懒,什么都没留下…
展开
-
Spark学习笔记(二)Spark工作模式
Spark on YARN Client模式 Spark Yarn Client向YARN的ResourceManager申请启动Application Master。同时在SparkContent初始化中将创建DAGScheduler和TASKScheduler等,由于是Yarn-Client模式,程序会选择YarnClientClusterScheduler和YarnClientSchedu...原创 2019-11-14 20:09:17 · 201 阅读 · 0 评论 -
YARN架构学习
YARN架构 YARN是Hadoop2.0版本新引入的资源管理系统,直接从MR1演化而来。核心思想:将MP1中JobTracker的资源管理和作业调度两个功能分开,分别由ResourceManager(全局)和ApplicationMaster(每个应用程序都有一个)进程来实现。YARN的出现,使得多个计算框架可以运行在一个集群当中(每个应用程序对应一个ApplicationMaster)。目前可...原创 2019-11-09 16:20:13 · 541 阅读 · 0 评论 -
调度器学习(一)
FIFO 早期的Hadoop使用FIFO(先进先出)调度算法,典型情况下,每个作业都会使用整个集群,因此其他作业必须等待。问题是有些生产作业需要及时完成,同时还要保证正在进行较小临时查询的用户能够在合理时间内得到返回结果。 后来,设置了作业优先级的功能,可以通过设置mapred.job.priority属性或者JobClient的setJobPriority()方法来设置优先级。在作业调度器在选...原创 2019-11-09 16:13:46 · 218 阅读 · 0 评论 -
MapReduce1.0作业提交过程
客户端提交MapReduce程序到Job,job的submit()方法,创建一个JobSummiter实例,并且调用其submitJobInternal()方法。 注:jobtracker是一个java应用程序,它的主类是JobTracker。 Job会向jobtracker请求作业ID(通过调用JobTracker的getnewJobId()方法获取)。接下来它会做检查操作,这个检查就是确定...原创 2019-11-07 19:49:50 · 229 阅读 · 0 评论 -
spark学习笔记(一)基础
参考链接 https://www.jianshu.com/p/3aa52ee3a802 https://www.cnblogs.com/Mayny/p/9330436.html https://www.cnblogs.com/tgzhu/p/5818374.html 计算框架 Spark架构采用了分布式计算中的Master-Slave模型,Master是对应集群中的含有Master进程的节点,S...原创 2019-11-07 19:42:18 · 268 阅读 · 0 评论