- 博客(10)
- 收藏
- 关注
原创 Hadoop0.21.0源码流程分析(3)-Task节点管理启动任务
源码流程分析3-Task节点管理启动任务 1. 代码执行流程1) TaskTracker的启动的时候会加载所有信息,包括利用RPC获得JobTracker 的RPC变量定义为jobClient;TaskTracker.run()方法会去循环向JobTracke
2011-07-11 15:55:26
833
原创 Hadoop0.21.0源码流程分析(2)-主节点接收作业
JobTracker功能概述 JobTracker负责调度job的每一个子任务task运行于slave上,并监控它们,如果发现有失败的task就重新运行它。JobTracker一直在等待JobClient通过RPC提交作业,而TaskTracker一直通过RPC
2011-06-14 22:08:00
693
原创 Hadoop源代码分析【RPC】
RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。当我们讨论HDFS的,通信可能发生在: Client-NameNode之间,其中NameNode是服务器Client-DataNode之间,其中DataNode是服务器DataNode-NameNode之间,其中NameNode是服务器DataNode-DateNode之间,
2011-06-13 16:07:00
715
原创 TeraSort实验--测试Map和Reduce Task数量对Hadoop性能的影响
通过Hadoop自带的Terasort排序程序,测试不同的map task和reduce task数量,对Hadoop性能的影响。
2011-05-19 14:53:00
3896
原创 Hadoop性能调优(一)--总述
根据yahoo架构师Milind Bhandarkar在《Hadoop Application Performance Tuning》中的阐述,Hadoop的性能调优主要分为以下六个方面:• Changing number of Map and Reduce tasks• Decrease Intermediate data size using combiner• Decrease map-side disk spill• Decrease intermediate data size by compre
2011-05-18 15:30:00
951
转载 Hadoop中TeraSort算法分析
<br /><br />1、概述<br />1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名 ,耗时209秒。那么Terasort在Hadoop中是怎样实现的呢?本文主要从算法设计角度分析Terasort作业。<br />2、算法思想<br />实际上,当我们要把传统的串行排序算法设计成并行的排序算法时,通常会想到分而治之的策略,即:把要排序的数据划成M个数据块(可以用Hash的方 法做到),
2011-05-18 15:29:00
1176
原创 HadoopDB集群配置方法
Author:谢本文介绍在2个节点上安装配置HadoopDB方法。各节点的名称分别为Cluster01(192.168.0.1),Cluster02(192.168.0.2)。以下若是用 hadoop@Cluster0X:~ 代表 Cluster01 ~ Cluster02 都要做的.参考资料1:HadoopDB Quick Start Guide参考资料2:HadoopDB安装使用
2011-05-12 11:26:00
2852
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人