hadoop 知识

最新推荐文章于 2025-09-09 23:41:54 发布

转载最新推荐文章于 2025-09-09 23:41:54 发布 · 55 阅读

CC 4.0 BY-SA版权

原文链接：https://my.oschina.net/SearchVera/blog/1504781

文章标签：

本文详细介绍了Hadoop的基本架构，包括其核心组件HDFS和MapReduce的工作原理。HDFS由NameNode管理和DataNode存储数据；MapReduce通过JobTracker协调任务，TaskTracker执行任务，实现分布式计算。

##7.hadoop

基本架构
1. hdfs：分布式文件系统
2. map-reduce：分布式计算框架
hdfs
1. NameNode：一个，系统总管，管理hdfs目录树
2. DateNode：一个节点，实际数据存储
MapReduce框架
1. JobTracker
2. TaskTracker
map过程
reduce过程
Partitioner
1. 作用是对Mapper产生的中间结果进行分片，将同一分组的数据交给同一个reducer处理
2. 默认hash分片
  
  (key.hashcode & Integer.MAX_VALUE) % reduce_num
任务选择策略： map task最重要的策略是：数据本地性
任务调度器：FIFO
task运行过程
1. map输出分布式排序：先由各个map task对输出进行局部排序，然后reduce task进行全局排序
2. reduce