
MapReduce
elpsyco
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce工作原理(细节整理)
为什么会有跑多个map任务好处:可以同时计算多份数据,总的计算时长会成倍缩短坏处:1 并行计算资源分配过多 2 数据聚合效率变慢任务的数量具体需要多少,由什么决定由输入的数据来决定。数据从hdfs来,map任务会效仿hdfs文件分块的形式 把输入的数据进行分块(filesplit)- 切片:默认情况下,会对每个单独的文件进行切片 默认切片大小和块大小相同,如果mapta...原创 2019-09-05 19:52:00 · 317 阅读 · 1 评论 -
MapReduce map端shuffle 元数据环形缓冲区+源码流程
private int partitions; 分区数量private JobConf job; 获取/自指配置的配置对象private Class keyClass; key的class类型private Class valClass; value的class类型private RawComparator comparator; 比较器private Se...原创 2019-09-07 14:47:12 · 773 阅读 · 0 评论 -
MapReduce总结(概括)
MapReduce是一种大规模数据处理的编程模型使用场景PV UV词频统计Top NMapReduce优缺点优点:编程模型简单高伸缩性支持横向扩展 (增加节点)高吞吐离线处理数据并行处理缺点:不支持流式数据不支持实时计算不支持复杂计算不支持迭代计算shuffle Map端Map端会源源不断的把数据输入到一个环形内存缓冲区达到默认80...原创 2019-09-11 15:27:39 · 315 阅读 · 0 评论 -
HDFS+MapReduce常见问题
首次启动Namenode时怎么格式化?为什么要格式化?非首次启动时,是否只要成功启动了Namenode 和Datanode ,HDFS就能立刻对外提供服务?1 会生成namenode文件目录结构2 确定了三个ID namespace cluster blockpool3 生成了fsimage_000不会立刻对外提供服务,namenode启动过程 :开启安全模式加载fsi...原创 2019-09-23 20:08:40 · 270 阅读 · 0 评论