参考多篇博客后,成功搭建Hadoop和Spark集群,希望记录下安装步骤,目前只更新了Hadoop部分
Hadoop简介
在搭建Hadoop集群之前,先简单了解一下Hadoop集群
Hadoop是什么
- Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群进行高度运算和存储。
- 主要解决海量数据的存储和分析计算的问题
- 广义上来说,Hadoop通常是指一个更广泛的概念-Hadoop生态圈,如下图
Hadoop发展历史
- Hadoop是原Yahoo的Doug Cutting根据Google发布的学术论文研究而来。Doug Cutting给这个Project起了个名字,就叫Hadoop,(Hadoop的图标是因为Doug Cutting根据他儿子的大象玩具设计的)。
- Google在大数据方面的三篇论文
-Google File System(大规模分散文件系统) — >HDFS
MapReduce (大规模分散FrameWork)---- >MapeReduce
BigTable(大规模分散数据库)----- > Hbase - 2005年Hadoop作为Lucene的子项目的Nutch一部分正式引入Apache基金会
Hadoop三大发行版本
- Apache 版本最原始(最基础)的版本,对入门学习比较好,对应的版本需要自己选择
- Cloudera在大型互联网企业中用的较多,但是收费 称为CDH版,可以一系列安装对应的版本,封装的比较好,一键安装
- Hortonworks文档较好
Hadoop的优势
- 高可靠性 Hadoop底层维护多个数据副本,至少三个,所以即时Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失
- 高效性 在Map Reduce的思想下,Hadoop是并行工作的,以加快任务处理速度
- 高扩展性 在集群间分配任务数据,可方便的扩展数以千计的节点,动态增加或删除节点
- 高容错性 能够将失败的任务重新分配
Hadoop1.X和Hadoop2.X的区别
PS:据说是必须要知道的知识点
在Hadoop1.X中,Hadoop中的Map Reduce同时处理业务逻辑运算和资源的调度,耦合性较大,在Hadoop2.X中,增加了Yarn。Yarn只负责资源的调度,Map Reduce只负责运算。
Hadoo环境搭建
(终于开始搭建环境辣)
环境:使用虚拟机创建了三个ubuntu 16.04的linux系统,虚拟机版本是vmvare 12.5
安装虚拟机,安装linux系统(如果你有linux系统可以跳过这个步骤)
1)如果没有安装虚拟机,安装包(链接:https://pan.baidu.com/s/1tjgqHtJQBkcycXuTzVENyg 提取码:7z7o )
2)不会在虚拟机上安装操作系统 ,可以参考这里,有详细的安装步骤,只需要将文中的centos系统更换成你想安装的系统就可以了。
3)克隆两个linux环境
如下图,找到克隆,然后一直下一步就可以了。
PS:我在打开虚拟机时碰到如下问题