
Hadoop
文章平均质量分 77
第一杯茶
IT
展开
-
Mapreduce的InputFormat和OutputFormat类层次结构
InputFormat原创 2014-05-05 13:36:30 · 771 阅读 · 0 评论 -
mapreduce的二次排序 SecondarySort
在看Hadoop The definitive guide 时,关于二次排序,在设置好setGroupingComparatorClass 后一直不明白为什么reduce的入参就是要查询的年最高温度,代码里没有看到是怎么实现的:代码:// cc MaxTemperatureUsingSecondarySort Application to find the maxi原创 2015-09-08 15:27:50 · 506 阅读 · 0 评论 -
Hadoop学习链接
一.HDFS初识 http://www.cnblogs.com/xia520pi/archive/2012/05/28/2520813.html二.Mapreduce原创 2014-05-26 13:57:52 · 642 阅读 · 0 评论 -
hadoop 数据倾斜
数据倾斜是数据中的常见情况。数据中不可避免地会出现离群值(outlier),并导致数据倾斜。这些离群值会显著地拖慢MapReduce的执行。常见的数据倾斜有以下几类:数据频率倾斜——某一个区域的数据量要远远大于其他区域。数据大小倾斜——部分记录的大小远远大于平均值。在map端和reduce端都有可能发生数据倾斜。在map端的数据倾斜会让多样化的数据集的处理效率更低。在reduce端转载 2015-09-14 13:56:10 · 1757 阅读 · 0 评论