
hadoop
hadoop生态圈
阿华田512
小红书 搜索阿华田512 即可获取所有专栏博客内容
展开
-
hadoop2.0之mapReduce启动运行全流程解析
mapReduce在Hadoop2.x中各部分简介:ResourceManager,RM:管理集群上资源使用的资源管理器:Application Master,AM:管理集群上运行任务声明周期的应用管理器: 应用服务器MA和资源管理器RM协商集群的计算资源:容器(Container,每个容器都有特定的内存上线),在这些容器上运行特定应用程序的进程,容器由集群节点...原创 2018-04-20 16:55:35 · 2651 阅读 · 4 评论 -
Hadoop之hdfs的工作原理和安装
一 HDFS简介(Hadoop Distributed File System)1简介:是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很...原创 2018-04-08 22:32:07 · 901 阅读 · 0 评论 -
mapreduce的cleanUp和setUp的特殊用法(TopN问题)和常规用法
特殊用法 我们上来不讲普通用法,普通用法放到最后。我们来谈一谈特殊用法,了解这一用法,让你的mapreduce编程能力提高一个档次,毫不夸张!!!扯淡了,让我们进入正题: 我们知道reduce和map都有一个局限性就是map是读一行执行一次,reduce是每一组执行一次,但是当我们想全部得到数据之后,按照需求删选然后再输出怎么办? 这时候只使用map和r...原创 2018-04-21 15:41:26 · 6626 阅读 · 7 评论 -
MapReduce 程序内部数据处理流程全解析
主要分为以下几个阶段:1.输入分片(input split):InputFormat有两个任务:对源文件分片,确定Mapper数量;对分片进行格式化,处理成<key,value>形式的数据给Mapper在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务,输入分片(input...原创 2018-04-20 16:46:07 · 2326 阅读 · 0 评论