
hadoop
文章平均质量分 89
Gedeon
找个地方做笔记。。。
展开
-
hadoop--之shuffle
Reduce Task 在工作的时候 接收的数据是以key/value 的形式接收。 而且value的类型为集合的类型。及key/valuelist 例如 (hello,[1,1,1,1,1,1,])但是在map()函数中,最后代码为context.write(key,value); 是以键值对的形式写入,为什么到reduce端就变了形式 这个就是用到了shuffle,俗称洗牌。转载 2016-10-09 15:03:05 · 518 阅读 · 1 评论 -
hadoop--之搜索引擎,倒排索引
倒排索引的用处搜索引擎的关键步骤就是建立倒排索引,所谓倒排索引一般表示为一个关键词,然后是它的频度(出现的次数),位置(出现在哪一篇文章或网页中,及有关的日期,作者等信息),它相当于为互联网上几千亿页网页做了一个索引,好比一本书的目录、标签一般。读者想看哪一个主题相关的章节,直接根据目录即可找到相关的页面。不必再从书的第一页到最后一页,一页一页的查找。倒排索引是搜索引擎之基石。建成了倒排索引后原创 2016-10-10 14:19:20 · 4328 阅读 · 1 评论 -
hadoop--之mapreduce框架流程
hadoop1.x时候的计算框架 hadoop1.x Mapreduce框架成员介绍l1)ClientØ用户编写的MapReduce程序通过Client提交到JobTracker端;同时,用户可通过Client提供的一些接口查看作业的运行状态。在Hadoop内部用“作业”(Job)表示MapReduce程序。一个MapReduce程序可对应若干个作业,而每个作业会原创 2016-10-11 21:28:20 · 1998 阅读 · 1 评论 -
hadoop--之YARN框架流程
YARN平台简介 YARN的诞生的背景 在Hadoop1.0版本中MapReduce架构存在的许多问题,例如: (一)无法支持更多的计算模型,Mapreduce将两个阶段计算模型MapReduce固化到了Hadoop系统中,无法更容易的支持更多的计算框架,比如Giraph,DAG,获取迭代计算框架,尽管当前很多计算框架,比如Griaph原创 2016-10-11 21:31:36 · 682 阅读 · 0 评论 -
hadoop-之二次排序&分组&分区
需求背景MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,本文将通过两个个实际的MapReduce二次排序例子,讲述二次排序的实现和其MapReduce的整个处理流程,并且通过结果和map、reduce端的日志来验证所描述的处理流程的原创 2016-10-15 17:11:29 · 3675 阅读 · 2 评论