Hadoop名字由来
作者孩子的棕黄色小象的名称
Hadoop简介
开源的,分布式存储+分布式计算平台
作用
搭建大型数据仓库,PB级数据的存储,处理,分析,统计等业务
搜索引擎,日志分析,商业智能,数据挖掘
分布式文件系统HDFS
HDFS是GFS的克隆版
特点:扩展性,容错性(多副本),海量数据存储
将文件切分为指定大小的数据块并以多副本的存储在多个机器上
数据切分,多副本,容错等操作对用户是透明的
资源调度系统Yarn
负责整个集群资源的管理和调度
特点:扩展性,容错性,多框架资源统一调度
特点:扩展性,容错性,海量数据离线处理
Hadoop优势
高可靠性:数据块对副本
重新调度作业计算
扩展性:存储/计算资源不够时,可以横线的线性扩展机器
一个集群中可以包含数以千计的节点
存储在廉价的机器上
成熟生态圈
狭义Hadoop:是一个适合大数据分布式存储(HDFS),分布式计算(MapReduce)
和调度资源(YARN)的平台;
广义Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,hadoop是其中最重要最基础的一个部分,
生态系统中每一个子系统只能解决某一个特定的问题域(甚至可能很窄),不搞统一型的一个全能系统,
而是小而精的多个小系统
hadoop生态系统:
特点:1.开源,社区活跃。
2.囊括了大数据处理的方方面面
3.成熟生态圈
hadoop1.0和hadoop2.0架构
Hadoop常用发行版及选型
Apache Hadoop(Jar包冲突)
CDH:Cloudera Distributed Hadoop 和Spark结合很好(下载网址:archive.cloudera.com)
HDP:Hortonworks Data Platform(添加,删除节点麻烦)