
Hadoop
文章平均质量分 87
can007
莫畏浮云遮望眼...
展开
-
安装hadoop和gluster
安装glusterfs-3.2.5 tar -zxvf glusterfs-3.2.5.tar.gz cd glusterfs-3.2.5 ls ./configure yum install "fuse*" make make install ls ls /e原创 2012-09-05 20:02:43 · 1132 阅读 · 0 评论 -
Mapreduce执行过程分析(基于Hadoop2.4)——(二)
4.3 Map类 创建Map类和map函数,map函数是org.apache.hadoop.mapreduce.Mapper类中的定义的,当处理每一个键值对的时候,都要调用一次map方法,用户需要覆写此方法。此外还有setup方法和cleanup方法。map方法是当map任务开始运行的时候调用一次,cleanup方法是整个map任务结束的时候运行一次。4.3.1 Map介绍原创 2014-07-10 23:04:07 · 1774 阅读 · 0 评论 -
Mapreduce执行过程分析(基于Hadoop2.4)——(一)
1 概述该瞅瞅MapReduce的内部运行原理了,以前只知道个皮毛,再不搞搞,不然怎么死的都不晓得。下文会以2.4版本中的WordCount这个经典例子作为分析的切入点,一步步来看里面到底是个什么情况。2 为什么要使用MapReduceMap/Reduce,是一种模式,适合解决并行计算的问题,比如TopN、贝叶斯分类等。注意,是并行计算,而非迭代计算,像涉及到层次聚类的问题就不原创 2014-07-10 23:03:03 · 1544 阅读 · 0 评论 -
Mapreduce执行过程分析(基于Hadoop2.4)——(三)
4.4 Reduce类4.4.1 Reduce介绍整完了Map,接下来就是Reduce了。YarnChild.main()—>ReduceTask.run()。ReduceTask.run方法开始和MapTask类似,包括initialize()初始化,根据情况看是否调用runJobCleanupTask(),runTaskCleanupTask()等。之后进入正式的工作,主要有这原创 2014-07-10 23:05:13 · 1508 阅读 · 0 评论 -
Hadoop2.3+Hive0.12集群部署
0 机器说明IPRole192.168.1.106NameNode、DataNode、NodeManager、ResourceManager192.168.1.107SecondaryNameNode、NodeManager、DataNode192.168.1.108原创 2014-03-20 23:58:13 · 2410 阅读 · 0 评论 -
HDFS2.x之RPC流程分析
HDFS2.x之RPC流程分析1 概述 Hadoop提供了一个统一的RPC机制来处理client-namenode, namenode-dataname,client-dataname之间的通信。RPC是整个Hadoop中通信框架的核心,目前采用ProtocolBuf作为RPC的默认实现。RPC的整体调用流程如下: 2 Protobuf Protocol原创 2013-08-21 20:12:24 · 1776 阅读 · 2 评论 -
Hadoop2.x集群动态添加删除数据节点
如果Hadoop集群已经在运行了,这时可能需要动态的添加新的数据节点到Hadoop系统中去,或者将某个数据节点下线,由于业务的需要,集群是不能重启的,那么具体的DataNode添加、删除步骤是什么样的呢?下面以DataNode的上线为例详细说明下如何动态的给HDFS集群新增数据节点(Hadoop2.0版本)。 首先简单说下几个相关的配置文件。(1)由dfs.hosts原创 2013-06-13 22:07:12 · 1966 阅读 · 0 评论 -
Apache Hadoop2.0之HDFS均衡操作分析
1 HDFS均衡操作原理HDFS默认的块的副本存放策略是在发起请求的客户端存放一个副本,如果这个客户端在集群以外,那就选择一个不是太忙,存储不是太满的节点来存放,第二个副本放在与第一个副本相同的机架但是不同节点上,第三个放在与第二个和第一个副本不同的机架上,原则是尽量避免在相同的机架上放太多的副本。随着时间的推移,在各个DataNode节点上的数据块会分布的越来越不均衡。如果集群不均衡的程原创 2013-01-04 22:56:35 · 7776 阅读 · 2 评论 -
关于DataNode更改IP地址后所可能引发HDFS集群状态变化的分析
在Apache Hadoop2.0版本中,测试如果DataNode更改HostName或者IP地址,会引起什么样的情况发生。1 测试环境操作系统:CentOS 6.2Hadoop版本:Apache Hadoop2.0.2Block副本数:2个节点部署:NodeTypeHostNameIPNameNode原创 2012-12-19 20:36:11 · 5692 阅读 · 0 评论 -
CDH4.1(hadoop-2.0.0-cdh4.1.2)安装部署文档
1. 环境说明 Hadoop的版本选用的hadoop-2.0.0-cdh4.1.2,此版本的hadoop增加了诸如热备等许多新功能。是Cloudera在hadoop0.23基础上改造的,并且把部分功能一起贡献给了Apache。目前Apache Hadoop最新的版本是hadoop-2.0.2-alpha。 CDH4下载地址: https://c原创 2012-11-23 22:42:56 · 4399 阅读 · 15 评论 -
Apache Hadoop2.0 安装部署说明
Apache Hadoop 2.0 安装部署1. 环境说明 Hadoop的版本选用的hadoop-2.0.2-alpha,此版本的hadoop增加了诸如Fedreation等许多新功能。是目前Apache Hadoop最新的版本。 Apache-Hadoop下载地址: http://www.apache.org/dyn/closer.cgi原创 2012-12-15 11:15:47 · 3645 阅读 · 0 评论 -
安装zookeeper记录
从Apache网站上(zookeeper.apache.org)下载ZooKeeper软件包,选择的是3.3.4版本的(zookeeper-3.3.4.tar.gz)。 这是官方的说明书:http://hadoop.apache.org/zookeeper/docs/current/zookeeperStarted.html#sc_RunningReplicatedZooKeep原创 2012-09-04 22:13:55 · 1289 阅读 · 0 评论 -
Yarn中的几种状态机
1 概述 为了增大并发性,Yarn采用事件驱动的并发模型,将各种处理逻辑抽象成事件和调度器,将事件的处理过程用状态机表示。什么是状态机? 如果一个对象,其构成为若干个状态,以及触发这些状态发生相互转移的事件,那么此对象称之为状态机。 处理请求作为某种事件发送到系统中,由一个中央调度器传递给对应的事件调度器,进而对事件进行处理,处理完成之后再次发送给中央调度原创 2014-08-05 21:58:55 · 4312 阅读 · 0 评论