mapreduce
UncleDu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
mapreduce在yarn流程
原创 2019-01-17 14:01:38 · 237 阅读 · 0 评论 -
maprecude总结
- map task: 读数据:InputFormat–>TextInputFormat 读文本文件 –>SequenceFileInputFormat 读Sequence文件 –>DBInputFormat 读数据库 处理数据:maptask通过调用Mapper类的map()方法实现对数据的处理 分区: 将map阶段产生的key-value数据,分发给若干个reduce tas...原创 2019-01-16 13:31:35 · 501 阅读 · 0 评论 -
mapreduce实例1-topN
读取文件request.dat 2017/07/28 qq.com/a 2017/07/28 qq.com/bx 2017/07/28 qq.com/by 2017/07/28 qq.com/by3 2017/07/28 qq.com/news 2017/07/28 sina.com/news/socail 2017/07/28 163.com/ac 2017/07/28 sina.com/new...原创 2019-01-16 15:13:48 · 502 阅读 · 0 评论 -
mapreduce实例2-自定义类型
数据如下 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200 1363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4 4 0 264 0 200 136315799107...原创 2019-01-16 15:14:03 · 216 阅读 · 0 评论 -
(转载)mapreduce实例3-自定义Partioner Shuffle阶段:partition分区以及自定义使用注意事项
一:partition分区(shuffle阶段) Mapreduce中会将map输出的kv对,按照相同key分组,然后分发给不同的reducetask(所以这也决定了为什么最终的文件个数,即分区个数跟reducetask数量一样了。)。默认分区是根据key的hashCode对reduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区。默认系统的patitioner类,实现类时has...转载 2019-01-16 15:12:39 · 737 阅读 · 0 评论
分享