
MapReduce
撸起袖子干就完了
Kafka_Hive_Flink
种一颗树最好的时间是十年前,其次是现在
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【MapReduce】浅谈MR Shuffle流程
MapReduce shuffle: Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。 在shuffle之前,MapReduce通过InputFormat接口中的getSplit()方法,对要当前要处理的HDFS块数据进行逻辑上的分片(split)操作,进而确定MapTask的个数 // 分片不会超过blockSize的大小,取goalSize和minSize的最大值 finalSplitSize=max(minSize,min(goalSize,blockSize))原创 2020-07-27 20:33:05 · 483 阅读 · 0 评论 -
【Hadoop】Hadoop 3.x 和2.x主要区别总结
⌘ 最低Java版本从7升级到8 ⌘ 引入纠删码(Erasure Coding),未来趋势 主要解决数据量大到一定程度磁盘空间存储能力不足的问题. HDFS中的默认3副本方案在存储空间中具有200%的额外开销。但是,对于I/O活动相对较少冷数据集,在正常操作期间很少访问其他块副本,但仍然会消耗与第一个副本相同的资源量。 纠删码能勾在不到50%数据冗余的情况下提供和3副本相同的容错能力,因此,冷数据可以使用纠删码作为副本机制的改进是自然而然,也是未来的趋势. 本来默认是128M为一个块,纠删码可以将其打散成1原创 2020-05-29 22:08:55 · 2484 阅读 · 0 评论 -
【MapReduce】MR执行过程中的关键源码学习总结
注意: 通过WordCount程序为例进行测试 是在本地模式进行的,所以N个MapTask 和 N个 ReduceTask没有并行的效果。 如果在集群上,N个 MapTask 和 N 个ReduceTask 是并行运行. 一、 Job提交的流程 方法层级:1 > 1) > (1) > <1> > ① > [1] > {1} 1. job.wai...原创 2020-04-18 14:03:37 · 233 阅读 · 0 评论