未来的竞争,是数据之争。大数据本质上是Hadoop的生态群,下面是常用技术词汇
- ETL:代表提取、转换和加载。
- Hadoop:分布式系统基础架构
- HDFS:分布式文件系统
- HBase:大数据的NoSQL数据库
- Hive:数据仓库工具
- DAG :第二代计算引擎
- Spark:第三代数据处理引擎
- Flink:第四代数据处理引擎
- MapReduce:最初的并行计算框架
- Sqoop:nosql数据库和传统数据库之间传输数据的工具
- Hive:数据仓库工具
- Storm:分布式实时计算系统
- Flume:分布式的海量日志采集系统。
- Kafka:分布式发布订阅消息系统
- ElasticSearch:分布式搜索引擎
- Kibana:ElasticSearch大数据的图形化展示工具
- Logstash:Elasticsearch 的传送带
- Neo4j:nosql图形数据库
- Oozie:工作流调度系统 -YARN:作业调度和集群资源管理的框架
Hadoop集群
大数据是基于集群的分布式系统。所谓集群是指一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干台计算机联合起来工作(服务),可以是并行的,也可以是做备份。
- 分布式 :分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事
- 集群:集群主要是将同一个业务,部署在多个服务器上 ,多个人在一起做同样的事
Hadoop介绍
Hadoop是Apache旗下的一个用Java语言实现开源软件框架,是一个存储和计算大规模数据的软件平台。
Hadoop是Apache Lucene创始人 Doug Cutting 创建的,最早起源一个Nutch项目。
- 2003年Google发表了一篇GFS论文,为大规模数据存储提供了可行的解决方案。
- 2004年 Google发表论文MapReduce系统,为大规模数据计算提供可行的解决方案。Nutch的开发人员以谷歌的论文为基础,完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目Hadoop。
- 到2008年1月,Hadoop成为Apache顶级项目,迎来了它的快速发展期。
- 如今,国内外的互联网巨头基本都在使用Hadoop框架作为大数据解决方案,越来越多的企业将Hadoop 技术作为进入大数据领域的必备技术。
目前,Hadoop发行版本分为开源社区版和商业版。
- 开源社区版:指由Apache软件基金会维护的版本,是官方维护的版本体系,版本丰富,兼容性稍差。
- 商业版:指由第三方商业公司在社区版Hadoop基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本,比较著名的有cloudera的CDH等。
开源社区版本:一般使用2.x版本系列,3.x版本系列:该版本是最新版本,但是还不太稳定。
废话不说了,开始今天的主题:使用三台Centos7系统搭建Hadoop2.X完全分布式集群
去年使用CentOS 7搭建了hadoop3.X分布式集群,由于换了电脑,考虑到电脑安装了很多前其他的东西,这次是使用二台Centos7系统搭建Hadoop完全分布式集群,虽然Centos更新到8版本,但是很多大数据学习都是选择基于Centos7系统搭建。这里不搭建一台的伪分布式,搭建的版本是目前Haddop3.X稳定的Hadoop-3.1.4。
去年对应的文章教程:
- https://blog.youkuaiyun.com/weixin_44510615/article/details/104625802
- https://blog.youkuaiyun.com/weixin_44510615/article/details/106540129
集群搭建前的准备
Centos7的下载地址:http://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/CentOS-7-x86_64-DVD-2009.iso。共4.8g。
在集群搭建前的准备,需要在VMwear Workst