1

本文详细解析了Hadoop环境下MapReduce的数据处理流程,包括文件读取、分片读取、记录读取、Mapper操作、分组排序、去重Reduce过程,以及Hadoop1.x与2.x版本的区别,最后介绍了YARN资源管理和HDFS存储系统的整合应用。
文本输入
一读取文件
分片读取inputSplit 
记录文件RecordReader
<0,    ,   >
<11,   ,   >



Mapper
for(){
}
三  分组排序Shuffle(系统默认)


 
四 去重Reduce(重写)


输出结果context.write(key,value);
result
 
二进制
结构化
    :结构化就是为文档建立一个框架,就象写文章先写一个提纲。
    


非结构化:


    非结构化或半结构化文本数据的典型代表是图书馆数据库中的文档,这些文档可能包含结构字段,
    如标题、作者、出版日期、长度、分类等,也可能包含大量非结构化文本成分,如摘要和正文内容。
    以文本(如字符、数字、标点、各种可打印的符号等)作为数据形式的非结构化的数据; 




hadoop 方式 -text  /user 




Hadoop 1.x  
2.MapReduce
    JobTracker: (作业追踪器)
     接受C提交的作业,分配作业
     管理与分配资源
    TaskTracker:执行JobTracker分配的作业




    hadoop 2.x
    
   1,HDFS  
       nameNode 一旦发生故障整个集群将无法使用(单点故障)
     HA
       解决单点故障
       在hadoop1.0中namenode只有一个,一旦发生故障整个集群将崩溃,
       所以在Hadoop2.0中增加HA(高可用性)解决单点故障问题)
       HA:工作机制:
       首先集群中有两个NN即是active(活跃的)和standby(备用的),一
       旦发生单点故障,负责调度转移的Zookeeper就会将集群中故障NN转移到备用的NN上
 
       NN(active)  NN(standby)
     zookeeper(ZKFC)自动故障转移 
       一旦NN(active)发生故障ZKFC自动转移到备用的NN(standby)


  2 YARN(资源管理器):管理分配集群的资源 不仅可运行MR 还可运行spark storm等计算平台
    1)RM:Resourcemanager 资源管理器
    2)NM:nodemanager节点管理器
    
  3 MR 数据处理
    待续......
     

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值