Hadoop的学习笔记
文章平均质量分 81
太阳仔
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
mapreduce源码分析之TaskTracker的启动
<!-- @page {margin:2cm} p {margin-bottom:0.21cm} --> 再看看TaskTracker里面的内容: TaskTracker的启动: 用start-all.sh启动集群时,TaskTracker会调用它的main方法,main里面先生成TaskTracker的对象,然后再调用run方法,run方法代码如下: ---原创 2012-05-02 20:58:16 · 988 阅读 · 0 评论 -
分布式基础学习【一】 —— 分布式文件系统
所谓分布式,在这里,很狭义的指代以Google的三驾马车,GFS、Map/Reduce、BigTable为框架核心的分布式存储和计算系统。通常如我一样初学的人,会以Google这几份经典的论文作为开端的。它们勾勒出了分布式存储和计算的一个基本蓝图,已可窥见其几分风韵,但终究还是由于缺少一些实现的代码和示例,色彩有些斑驳,缺少了点感性。幸好我们还有Open Source,还有Hadoop。Had转载 2012-05-22 20:59:43 · 746 阅读 · 0 评论 -
Hadoop RPC 实例
Datanode要向Namenode发送请求,希望得到一个字符串应答。假设Namenode的地址是127.0.0.1:9000 一、配置文件 org.apache.hadoop.conf. Configuration;对应的配置文件是core-site.xml。配置项以key-value的形式存储。 [xhtml] view plaincopy conf转载 2012-05-22 20:35:15 · 451 阅读 · 0 评论 -
hadoop集群的配置笔记
以前在单机环境下搭好过Hadoop开发环境,这几天试着搭建了一个集群环境。使用设备是我们学校机房的两台电脑,master 作为Namenode节点,另外一个(slave1)作为Datanode,之后又搭建了六台,步骤基本差不多,这里把搭建两台的步骤贴上,防止以后有需要。 IP地址分配为: master:192.168.0.100,Ubuntu 11.10,运行Namenode原创 2012-04-18 23:37:08 · 456 阅读 · 0 评论 -
mapreduce源码分析之JobTracker
<!-- @page {margin:2cm} p {margin-bottom:0.21cm} --> 以下是我研究mapreduce源码的几个步骤,其中没有涉及太多的细节问题,主要就是先将思路理清,为以后继续深入研究做点笔记,主要涉及到map和reduce任务的执行步骤,首先从JobTracler的启动开始,之后到TaskTracker的启动,TaskTracker原创 2012-05-02 20:55:04 · 1490 阅读 · 0 评论 -
mapreduce源码分析之HeartBeat机制
<!-- @page {margin:2cm} p {margin-bottom:0.21cm} --> 三.再次回到JobTracker看看心跳机制是怎么回复的,哈哈。。。 当TaskTracker将heartbeat通过RPC发送到JobTracker时,会触发JobTracker的heartbeat()方法,具体见下面(我只是将流程分析了一下,其他的都是一些辅助原创 2012-05-02 20:59:13 · 1325 阅读 · 0 评论 -
mapreduce源码分析之默认的任务调度器——JobQueueTaskScheduler
<!-- @page {margin:2cm} p {margin-bottom:0.21cm} --> 四.默认的任务调度器是JobQueueTaskScheduler 分配任务: 默认的任务调度器是JobQueueTaskScheduler,它的assignTasks方法分配任务,貌似这个方法有一点点小复杂,接下来慢慢分析! -----------------原创 2012-05-02 21:01:19 · 1569 阅读 · 1 评论 -
mapreduce源码分析之Reduce任务的运行
<!-- @page {margin:2cm} p {margin-bottom:0.21cm} --> 七.Reduce任务的运行 看看reduceTask里面的run方法:先看前几行代码跟map其实差不多,只是多了一个状态的设置 -------------------------------------------------------------------原创 2012-05-02 21:03:56 · 869 阅读 · 0 评论 -
mapreduce源码分析之Map任务的运行
<!-- @page {margin:2cm} p {margin-bottom:0.21cm} --> 六.Map任务的运行 如上节所说,如果是map任务,它的run方法代码如下: ----------------------------------------------------------------- @Override publicvoid原创 2012-05-02 21:03:18 · 793 阅读 · 0 评论 -
mapreduce源码分析之TaskTracker接受HeartbeatResponse
<!-- @page {margin:2cm} p {margin-bottom:0.21cm} --> 五.TaskTracker接受HeartbeatResponse TaskTracker根据HeartbeatResponse的返回内容调用addToTaskQueue方法 --------------------------------------------原创 2012-05-02 21:02:15 · 547 阅读 · 0 评论 -
分布式基础学习【二】 —— 分布式计算系统(Map/Reduce)
二. 分布式计算(Map/Reduce) 分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按GoogleMap/Reduce框架所设计的分布式框架。在Hadoop中,分布式文件系统,很大程度上,是为各种分布式计算需求所服务的。我们说分布式文件系统就是加了分布式的文件系统,类似的定义推广到分布式计算上,我们可以将其视为增加了分布式支持的计算函数。从计算的角度上看,Map/Reduce转载 2012-05-22 21:00:27 · 463 阅读 · 0 评论
分享