hadoop 知识

本文详细介绍了Hadoop的基本架构,包括其核心组件HDFS和MapReduce的工作原理。HDFS由NameNode管理和DataNode存储数据;MapReduce通过JobTracker协调任务,TaskTracker执行任务,实现分布式计算。

##7.hadoop

  1. 基本架构

    1. hdfs:分布式文件系统
    2. map-reduce:分布式计算框架
  2. hdfs

    1. NameNode:一个,系统总管,管理hdfs目录树
    2. DateNode:一个节点,实际数据存储
  3. MapReduce框架

    1. JobTracker
    2. TaskTracker
  4. map过程

  5. reduce过程

  6. Partitioner

    1. 作用是对Mapper产生的中间结果进行分片,将同一分组的数据交给同一个reducer处理

    2. 默认hash分片

      (key.hashcode & Integer.MAX_VALUE) % reduce_num

  7. 任务选择策略: map task最重要的策略是:数据本地性

  8. 任务调度器:FIFO

  9. task运行过程

    1. map输出分布式排序:先由各个map task对输出进行局部排序,然后reduce task进行全局排序
    2. reduce

转载于:https://my.oschina.net/SearchVera/blog/1504781

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值