
mapreduce
文章平均质量分 88
域清风
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
简单的总结MR
1.MapReduce前言 1.为什么需要MR 1、海量数据在单机上处理因为硬件资源限制,无法胜任 2、而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度 3、引入 MapReduce 框架后,开发人员可以将绝大部分工作集中在业务逻辑的开发上,而将 分布式计算中的复杂性交由框架来处理 单机版 磁盘受限,内存受限,计算能力受限 分布式 1、 数据存储的问题,h...原创 2019-09-26 16:17:45 · 455 阅读 · 1 评论 -
放一些MR案例
1.partitioner分区 1.概念 1、将map输出的kv对,按照相同key分组,然后分发给不同的reducetask 默认的分发规则为:根据keyhashcode%reducetask 2、一般返回值从0开始,并且定义多少的reduce数,就有多少分区 2.实例 class MyPartition extends Partitioner<Text, IntWritable> {...原创 2019-09-26 16:19:16 · 808 阅读 · 2 评论