什么是 Hadoop?
狭义
指 Hadoop 框架, 大数据必备框架, Apache 下开源的分布式系统基础框架, 主要解决海量数据的存储和分析计算问题
广义
指Hadoop生态圈, 包含大量用于大数据储存, 管理, 传输, 分析计算的框架
Hadoop 的三大发行版本
Apache、Cloudera、Hortonworks
- Apache 版本最原始(最基础)的版本,对于入门学习最好
- Cloudera 在大型互联网企业中用的较多
- Hortonworks 文档较好
Hadoop 的优势
高可靠, 高扩展, 高容错, 高效
Hadoop 组成
Hadoop1.x MapReduce 同时处理业务逻辑运算和资源调度, 耦合性高
Hadoop2.x 进行改进, 增加 Yarn, Yarn 负责任务调度, MapReduce 负责运算