npucloud-优快云博客

原创 Hadoop0.21.0源码流程分析(3)-Task节点管理启动任务

源码流程分析3-Task节点管理启动任务 1. 代码执行流程1) TaskTracker的启动的时候会加载所有信息，包括利用RPC获得JobTracker 的RPC变量定义为jobClient；TaskTracker.run()方法会去循环向JobTracke

2011-07-11 15:55:26 858

原创 Hadoop0.21.0源码流程分析(2)-主节点接收作业

JobTracker功能概述 JobTracker负责调度job的每一个子任务task运行于slave上，并监控它们，如果发现有失败的task就重新运行它。JobTracker一直在等待JobClient通过RPC提交作业,而TaskTracker一直通过RPC

2011-06-14 22:08:00 717

原创 Hadoop源代码分析【RPC】

RPC采用客户机/服务器模式。请求程序就是一个客户机，而服务提供程序就是一个服务器。当我们讨论HDFS的，通信可能发生在： Client-NameNode之间，其中NameNode是服务器Client-DataNode之间，其中DataNode是服务器DataNode-NameNode之间，其中NameNode是服务器DataNode-DateNode之间，

2011-06-13 16:07:00 739

原创 Hadoop0.21.0源码流程分析(1)-客户端提交作业

Hadoop0.21.0源码流程分析(1)-客户端提交作业

2011-05-27 20:50:00 916

原创 TeraSort实验--测试Map和Reduce Task数量对Hadoop性能的影响

通过Hadoop自带的Terasort排序程序，测试不同的map task和reduce task数量，对Hadoop性能的影响。

2011-05-19 14:53:00 3935

原创 Hadoop性能调优(二)--Map and Reduce tasks 数量

Map and Reduce tasks 数量对性能的影响

2011-05-18 15:31:00 8221 1

根据yahoo架构师Milind Bhandarkar在《Hadoop Application Performance Tuning》中的阐述，Hadoop的性能调优主要分为以下六个方面：• Changing number of Map and Reduce tasks• Decrease Intermediate data size using combiner• Decrease map-side disk spill• Decrease intermediate data size by compre

2011-05-18 15:30:00 973

转载 Hadoop中TeraSort算法分析

1、概述 1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业，在2008年，Hadoop在1TB排序基准评估中赢得第一名，耗时209秒。那么Terasort在Hadoop中是怎样实现的呢？本文主要从算法设计角度分析Terasort作业。 2、算法思想 实际上，当我们要把传统的串行排序算法设计成并行的排序算法时，通常会想到分而治之的策略，即：把要排序的数据划成M个数据块（可以用Hash的方法做到），

2011-05-18 15:29:00 1211

原创 HadoopDB集群配置方法

Author:谢本文介绍在2个节点上安装配置HadoopDB方法。各节点的名称分别为Cluster01(192.168.0.1)，Cluster02(192.168.0.2)。以下若是用 hadoop@Cluster0X:~ 代表 Cluster01 ~ Cluster02 都要做的.参考资料1：HadoopDB Quick Start Guide参考资料2：HadoopDB安装使用

2011-05-12 11:26:00 2885 1

原创 Hadoop0.21.0源码编译方法

Author:谢本文介绍在Linux下使用eclipse编译Hadoop0.21.0源码

2011-05-12 11:16:00 2850 1

npucloud的专栏