
Hadoop
文章平均质量分 53
wer0735
这个作者很懒,什么都没留下…
展开
-
离线计算框架MapRedure
概述MapReduce客户端MRAppMaster工作流程MR作业生命周期及相关状态机资源申请与再分配Container启动与释放 ContainerLauncher负责与各个NM通信,以启动或释放Container。推测执行机制 省略作业恢复 省略数据原创 2017-10-17 08:14:08 · 671 阅读 · 0 评论 -
hadoop三个配置文件的参数含义说明
1 获取默认配置配置Hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到co转载 2017-12-30 17:14:27 · 432 阅读 · 0 评论 -
hadoop2提交到Yarn: Mapreduce执行过程reduce分析3
转载:http://www.aboutyun.com/thread-9375-1-1.html问题导读:1.Reduce类主要有哪三个步骤?2.Reduce的Copy都包含什么过程?3.Sort主要做了哪些工作?4.4 Reduce类4.4.1 Reduce介绍整完了Map,接下来就是Reduce了。YarnChild.main()—>Red转载 2017-12-08 07:45:01 · 251 阅读 · 0 评论 -
hadoop2提交到Yarn: Mapreduce执行过程分析2
转载:http://www.aboutyun.com/thread-9370-1-1.html问题导读:1.hadoop哪些数据类型,是如何与Java数据类型对应的?2.ApplicationMaster什么时候启动?3.YarnChild进程什么时候产生?4.如果在recuece的情况下,map任务完成暂总任务的多少百分比?5.run的执行步骤是什么?6.转载 2017-12-08 07:43:16 · 288 阅读 · 0 评论 -
hadoop2提交到Yarn: Mapreduce执行过程分析1
转载:http://www.aboutyun.com/thread-9366-1-1.html问题导读1.为什么会产生Yarn?2.Configuration类的作用是什么?3.GenericOptionsParser类的作用是什么?4.如何将命令行中的参数配置到变量conf中?5.哪个方法会获得传入的参数?6.如何在命令行指定reduce的个数?转载 2017-12-08 07:41:18 · 278 阅读 · 0 评论 -
MapReduce中的Shuffle和Sort分析
MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。 当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任务,然后分配到不同的节点上去执行,每一个Map 任务处理输入数据中的一部分,当Map 任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce 任务的输入数据。Reduce 任务的主要目标就是把前面若干个Ma原创 2017-12-08 00:01:16 · 329 阅读 · 0 评论 -
查看Hadoop日志
1 yarn logs -applicationId xxx可以查看运行结束的Application的日志 yarn logs -applicationId application_1512434255334_0374原创 2017-12-07 10:51:02 · 3060 阅读 · 0 评论 -
MapReduce错误集-map端jvm堆空间不足
任务:INSERT_ADD_BD_DW_GENERAL_PUSH脚本内容:hive -v -e "use db_ecar;set hive.map.aggr.hash.percentmemory = 0.25;INSERT INTO TABLE BD_DW_GENERAL_PUSH SELECT t4.USER_ID ,t1.TERMINAL原创 2017-12-04 17:47:32 · 482 阅读 · 0 评论 -
mapreduce on yarn简单内存分配解释
关于mapreduce程序运行在yarn上时内存的分配一直是一个让我蒙圈的事情,单独查任何一个资料都不能很好的理解透彻。于是,最近查了大量的资料,综合各种解释,终于理解到了一个比较清晰的程度,在这里将理解的东西做一个 简单的记录,以备忘却。 首先,先将关于mapreduce和yarn关于内存分配的参数粘贴上:yarn.scheduler.minimum-allocatio转载 2017-12-04 16:58:12 · 577 阅读 · 0 评论 -
mapred-site.xml的参数说明
Hadoop版本:Hadoop-2.6.0 # mapreduce.job.split.metainfo.maxsize 10000000 # mapreduce.job.counters.max 120 # mapreduce.job.counters.grou原创 2017-12-04 18:11:58 · 2560 阅读 · 0 评论 -
distcp问题
1 报check-sum mismatch between source_path and target_path执行命令:hadoop distcp hdfs://xxxx:8020/mydata/hive/warehouse/db_ecar.db/bd_ads_flow_protrayal_total/ hdfs://yyyy:8020/user/hive/warehouse/d原创 2017-10-17 13:59:47 · 639 阅读 · 0 评论 -
Task运行过程分析笔记
Task运行过程概述基本数据结构和算法Map Task内部实现Reduce Task内部实现Map/Reduce Task优化原创 2017-10-17 08:30:55 · 300 阅读 · 0 评论 -
YARN/MRv2 Node Manager深入剖析—Container状态机分析
转载董的博客:http://dongxicheng.org/mapreduce-nextgen/yarnmrv2-node-manager-container-state-machine/阅读本文之前,请先阅读这篇博文:“YARN/MRv2 Node Manager深入剖析—NM整体架构”。本文的分析基于Hadoop trunk上的“Revision 1452188”版本,具体可参考:http:/...转载 2018-04-13 19:08:46 · 626 阅读 · 0 评论