1. Hadoop包含两核心部分
- hdfs
- Hadoop distribute file system -- hadoop分布式文件系统,存储数据
- Namenode、Datanode
- 常用命令形式:hadoop fs -ls / hadoop fs -mkdir
- MapReduce
- 分而治之;map:实现分治;reduce:实现合并
- 解决数据可分割的计算问题
- 编程接口:常用Streaming;组成:Job配置文件、map函数,reduce函数
2. hdfs结构图
- Namenode存储元数据,数据信息,数据备份信息
- Datanode 数据备份:本机架备份、异地备份
3. MapReduce调度框架
- JobClient: <