
mapreduce
文章平均质量分 79
zhoujq
很懒
展开
-
Hadoop常用SDK系列五 TotalOrderPartitioner
Hadoop对于map的结果需要进行分区,并将每个分区对应一个reduce。从负载均衡的角度看,分区应该是越均匀越好。Hadoop提供的分区类有: BinaryPartitioner,DraftPartitioner,FirstPartitioner,HashPartitioner,IndexPartitioner,KeyFieldBasedPartitioner,SleepJobPartioner,SimplePartitioner,TotalOrderPartitioner。此外,用户还可以自定义分区转载 2010-11-17 20:32:00 · 1180 阅读 · 0 评论 -
Mapreduce任务调度中的任务时间评估策略
Mapreduce任务调度中的任务时间评估 在异构环境中Mapreduce作业的运行时间预测或者评估是基于deadline的调度中比较关键的一部分。 在文献[1-2]中调度依据文件的剩余时间。两种方法都不同,文献[1]假设Hadoop系统运行于一个同构的环境中且任务的执行时原创 2011-07-23 13:55:48 · 2788 阅读 · 0 评论 -
ZooKeeper—分布式协同服务
ZooKeeper—分布式协同服务1.概述ZooKeeper[1]是hadoop的一个分布式协同服务,主要解决分布式应用程序中的局部失败问题,即网络操作过程中发送者与接收者之间无法明确发送操作是否正确无误。在分布式系统中,它能够提供:系统配置信息维护,命名,分布式同步等服务。著名原创 2011-07-23 16:24:28 · 1220 阅读 · 0 评论 -
HDFS scalability: the limits to growth 学习笔记
HDFS scalability:the limits to growth 笔记 HDFS 概览 1. HDFS是stand-alone的 分布式文件系统的树形结构信息(metadata)由NameNode存储,文件本身存放在众多的DataNode中。原创 2011-07-29 22:33:31 · 1401 阅读 · 0 评论 -
7 Tips forImproving MapReduce Performance
7 Tips forImproving MapReduce Performance One servicethat Cloudera provides for our customers is help with tuning and optimizingMapReduce j转载 2011-08-19 10:57:21 · 886 阅读 · 0 评论