文本输入
一读取文件
分片读取inputSplit
记录文件RecordReader
<0, , >
<11, , >
二
Mapper
for(){
}
三 分组排序Shuffle(系统默认)
四 去重Reduce(重写)
输出结果context.write(key,value);
result
二进制
结构化
:结构化就是为文档建立一个框架,就象写文章先写一个提纲。
非结构化:
非结构化或半结构化文本数据的典型代表是图书馆数据库中的文档,这些文档可能包含结构字段,
如标题、作者、出版日期、长度、分类等,也可能包含大量非结构化文本成分,如摘要和正文内容。
以文本(如字符、数字、标点、各种可打印的符号等)作为数据形式的非结构化的数据;
hadoop 方式 -text /user
Hadoop 1.x
2.MapReduce
JobTracker: (作业追踪器)
接受C提交的作业,分配作业
管理与分配资源
TaskTracker:执行JobTracker分配的作业
hadoop 2.x
1,HDFS
nameNode 一旦发生故障整个集群将无法使用(单点故障)
HA
解决单点故障
在hadoop1.0中namenode只有一个,一旦发生故障整个集群将崩溃,
所以在Hadoop2.0中增加HA(高可用性)解决单点故障问题)
HA:工作机制:
首先集群中有两个NN即是active(活跃的)和standby(备用的),一
旦发生单点故障,负责调度转移的Zookeeper就会将集群中故障NN转移到备用的NN上
NN(active) NN(standby)
zookeeper(ZKFC)自动故障转移
一旦NN(active)发生故障ZKFC自动转移到备用的NN(standby)
2 YARN(资源管理器):管理分配集群的资源 不仅可运行MR 还可运行spark storm等计算平台
1)RM:Resourcemanager 资源管理器
2)NM:nodemanager节点管理器
3 MR 数据处理
待续......
一读取文件
分片读取inputSplit
记录文件RecordReader
<0, , >
<11, , >
二
Mapper
for(){
}
三 分组排序Shuffle(系统默认)
四 去重Reduce(重写)
输出结果context.write(key,value);
result
二进制
结构化
:结构化就是为文档建立一个框架,就象写文章先写一个提纲。
非结构化:
非结构化或半结构化文本数据的典型代表是图书馆数据库中的文档,这些文档可能包含结构字段,
如标题、作者、出版日期、长度、分类等,也可能包含大量非结构化文本成分,如摘要和正文内容。
以文本(如字符、数字、标点、各种可打印的符号等)作为数据形式的非结构化的数据;
hadoop 方式 -text /user
Hadoop 1.x
2.MapReduce
JobTracker: (作业追踪器)
接受C提交的作业,分配作业
管理与分配资源
TaskTracker:执行JobTracker分配的作业
hadoop 2.x
1,HDFS
nameNode 一旦发生故障整个集群将无法使用(单点故障)
HA
解决单点故障
在hadoop1.0中namenode只有一个,一旦发生故障整个集群将崩溃,
所以在Hadoop2.0中增加HA(高可用性)解决单点故障问题)
HA:工作机制:
首先集群中有两个NN即是active(活跃的)和standby(备用的),一
旦发生单点故障,负责调度转移的Zookeeper就会将集群中故障NN转移到备用的NN上
NN(active) NN(standby)
zookeeper(ZKFC)自动故障转移
一旦NN(active)发生故障ZKFC自动转移到备用的NN(standby)
2 YARN(资源管理器):管理分配集群的资源 不仅可运行MR 还可运行spark storm等计算平台
1)RM:Resourcemanager 资源管理器
2)NM:nodemanager节点管理器
3 MR 数据处理
待续......