mapreduce
天黑要加班
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop-WordCount单词统计
/** * *Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> * *输入 key 文本中偏移量 *value 文本中的内容 * *输出 key 是文本的内容 * *value 是单词出现的次数 */ public class WordCountMap extends Mapper<LongWritable, Te...原创 2018-11-03 08:52:20 · 541 阅读 · 0 评论 -
Combiner
Combiner的作用就是对map端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量,以提高网络IO性能,是MapReduce的一种优化手段之一。 Combiner是MR程序中Mapper和Reducer之外的一种组件 Combiner组件的父类就是Reducer Combiner和Reducer对的区别 在于运行的位置 Reducer是每一个接收全局的MapTask所输出的结...原创 2018-11-03 10:22:51 · 324 阅读 · 0 评论 -
shuffle过程文件描述
shuffle主要流程简介 先对数据进行切片,然后经数据传递给map,map的输出是环形缓冲区,环形缓冲区默认大小是100M,当达到80%的时候数据就溢写到本地,剩余20%用于继续获取数据,在溢写到磁盘的时候会执行partition(分区)和sor(排序),然后对文件进行合并操作,合并完成后reducetask会启动线程去mapTask拉取数据,然后进行文件合并,并进行排序(归并),然后将小文件合...原创 2018-11-04 19:58:30 · 398 阅读 · 0 评论
分享