
hadoop
文章平均质量分 66
Stray_Lambs
这个作者很懒,什么都没留下…
展开
-
Hadoop面试题目
Hadoop是什么 从HDFS、MR、Yarn进行讲解。 HDFS的读写流程 读流程: 写流程: MR任务中的Shuffle过程 Map方法之后Reduce方法之前这段处理过程叫「Shuffle」 Map方法之后,数据首先进入到分区方法,把数据标记好分区,然后把数据发送到环形缓冲区;环形缓冲区默认大小100m,环形缓冲区达到80%时,进行溢写;溢写前对数据进行排序,排序按照对key的索引进行字典顺序排序,排序的手段「快排」;溢写产生大量溢写文件,需要对溢写文件进行「归并排.原创 2021-07-20 16:47:37 · 283 阅读 · 0 评论 -
MapReduce案例WordCount
最近在b站上看尚硅谷的hadoop相关的视频案例,在这里记录一下。如果有错误,欢迎大佬指正。 MapperClass map阶段主要是通过InputFormat来进行读取文件(当然文件切片什么的在之前也处理好了 )。默认的文件输入方式是TextInputFormat。 代码如下: package com.hadoop.wordCount; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; i原创 2021-02-27 22:38:08 · 179 阅读 · 0 评论