Hadoop 笔记
文章平均质量分 90
AnGe9798
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HADOOP小问题总结与答案
每个输入分片一个hdfs块会让一个map任务来处理map处理结束, 传输进环形缓冲区,环形缓冲区100m(大小可调整),数据进入会进行排序,数据达到环形缓冲区阈值80%(可调整),会溢出文件到本地磁盘,在写入磁盘之前,线程首先根据reduce任务的数目将数据划分为相同数目的分区,使用hash进行分区排序,如果程序有Combiner操作,将排序好的结果在进行操作。map阶段:然后进行Map过程,Map会并行读取文本,对读取的单词进行单词分割,并且每个词以键值 对形式生成。原创 2023-06-30 09:15:51 · 245 阅读 · 0 评论 -
hadoop 笔记
hadoop 2hadoop是大数据生态圈的核心 2分布式 2集群 2MR的框架层面理解 2MR具体的工作流程 2求词频最高单词是 2xxxWritable是怎么回事 3MR的键值规则 3topN问题 3MR的分区机制 4键值的互换 5什么是计数器 5优化map 到reduce 大数据的时候 5表连接 6倒排索引 7GroupCom...原创 2018-11-06 10:13:43 · 302 阅读 · 0 评论
分享