
hadoop
瞌死在大数据
这个作者很懒,什么都没留下…
展开
-
hadoop的yarn工作流程
yarn是如何执行一个mapreduce job的:首先,Resource Manager会为每一个application在NodeManager里面申请一个container,然后在container里面启动一个application master。container在yarn中是分配资源的容器(内存、cpu、硬盘等),它启动时便会相应启动一个jvm。然后,application master便陆续为application包含的每一个task向resource manager申请一个container原创 2021-12-20 21:25:58 · 1391 阅读 · 0 评论 -
shuffle机制
shuffle过程:map方法之后,reduce方法之前的数据处理过程称为shuffle过程在环形缓冲区出来以后,进行分区,排序(快排,对key的索引进行排序,按照字典顺序排),然后可以有combiner过程,进行提前预聚合,再进行溢写。有多次溢写(因为环形缓冲区100M不止存储数据,还存储了像索引这些的元数据),形成多个溢写文件。再对溢写文件进行归并排序,形成一个分区的文件,写到磁盘。reduce task对拉去相同分区的数据,再对相同分区的数据进行归并、排序、分组,使得相同的key进入同一个r.原创 2021-12-20 21:24:50 · 157 阅读 · 0 评论 -
mapreduce详细工作流程
mapreduce工作流程map任务处理1.1 框架使用InputFormat类的子类把输入文件(夹)划分为很多InputSplit,默认,每个HDFS的block对应一个InputSplit。通过RecordReader类,把每个InputSplit解析成一个个<k1,v1>。默认,框架对每个InputSplit中的每一行,解析成一个<k1,v1>。1.2 框架调用Mapper类中的map(…)函数,map函数的形参是<k1,v1>对,输出是<k2,v2原创 2021-12-20 21:21:35 · 6063 阅读 · 0 评论 -
mapreduce分区策略详解
本文章详细给出了mapreduce的分区策略原理原创 2021-12-20 20:50:21 · 330 阅读 · 0 评论