Hadoop是什么:是一个适合大数据,分布式储存和并行计算的框架。
Hadoop的生态圈:
数据采集:nutch
数据导入:
非结构化数据:flume scribe
结构化数据:sqoop hiho
数据存储:HDFS Hbase
数据处理:MapReduce
数据处理接口:Pig Hive
数据的一致性:ZooKeeper
数据的智能应用:mahout
Hadoop思想由来:谷歌的三篇论文
GFS:HDFS
MapReduce:MaReduce
BigTbale:Hbase
注:Chubby :ZooKeeper
Hadoop由两部分组成:
第一部分:HDFS
一、HDFS的组成结构:主从结构
一个主节点:namenode
多个从节点:datanode
二、nomenode与datanode的负责的职责:
namenode:
1.接收用户的操作请求
2.维护文件系统的目录结构
3.管理文件与block块的,block块与datanode的关系
datanode:
1.存储文件划分的boock块
2.为了保证数据安全,文件的bolck块多个副本
三、例子
第二部分:MapReduce
一、MapReduce组成结构:
一个主节点:JobTracker
多个从节点:TaskTracker
二、JobTracker和TaskTracker负责的职责:
JobTracker:
1. 接收客户提交的计算任务
2. 把计算任务分配给TaskTracker执行
3. 监控TaskTracker的执行任务
TaskTracker:
1. 执行JobTracker分配的任务
三、例子:项目经理与开发人员的关系
Hadoop的集群的物理分布:
Hadoop的服务单节点的物理结构: