一、hadoop简介
Hadoop起源于 Google的三大论文:
GFS:Google的分布式文件系统Google File System
MapReduce:Google的MapReduce开源分布式并行计算框架
BigTable:一个大型的分布式数据库
演变关系:
GFS—>HDFS
Google MapReduce—-->Hadoop MapReduce
BigTable—->HBase
Hadoop名字不是一个缩写,是Hadpop之父Doug Cutting儿子毛绒玩具象命名的。
hadoop主流版本:
Apache基金会hadoop
Cloudera版本(Cloudera's Distribution Including Apache Hadoop,简称“CDH”)
Hortonworks版本(Hortonworks Data Platform,简称“HDP”)
Apache hadoop | CDH | HDP | |
管理工具 | 手工 | Cloudera Manager | Ambari |
收费情况 | 开源 | 社区版免费,企业版收费 | 免费 |
Hadoop的框架最核心的设计就是:HDFS和MapReduce。 HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。
Hadoop框架包括以下四个模块:
Hadoop Common:这些是其他Hadoop模块所需的Java库和实用程序。这些库提供文件系统和操作系统级抽象,并包含启动Hadoop所需的Java文件和脚本。
Hadoop YARN:这是一个用于作业调度和集群资源管理的框架。
Hadoop Distributed File System (HDFS):分布式文件系统,提供对应用程序数据的高吞吐量访问。Hadoop MapReduce;这是基于YARN的用于并行处理大数据集的系统
Hadoop应用场景:
在线旅游、移动数据、电子商务、能源开采与节能、基础架构管理、图像处理、诈骗检测、IT安全、医疗保健
官网地址:
https://hadoop.apache.org/docs/
二、Hadoop文件系统的搭建(单机)
[hadoop@server1 ~]$ tar zxf jdk-8u181-linux-x64.tar.gz
[hadoop@server1 ~]$ ls
hadoop-3.2.1.tar.gz jdk1.8.0_181 jdk-8u181-linux-x64.tar.gz
[hadoop@server1 ~]$ ln -s jdk1.8.0_181/ java
[hadoop@server1 ~]$ tar zxf hadoop-3.2.1.tar.gz
[hadoop@server1 ~]$ ln -s hadoop-3.2.1 hadoop
[hadoop@server1 ~]$ ll
[hadoop@server1 ~]$ cd hadoop
[hadoop@server1 hadoop]$ ls
bin etc include lib libexec LICENSE.txt NOTICE.txt README.txt sbin share
[hadoop@server1 hadoop]$ cd etc/
[hadoop@server1 etc]$ ls
hadoop
[hadoop@server1 etc]$ cd hadoop/
[hadoop@server1 hadoop]$ vim hadoop-env.sh
export JAVA_HOME=/home/hadoop/java
export HADOOP_HOME=/home/hadoop/hadoop
[hadoop@server1 ~]$ cd hadoop/
[hadoop@server1 hadoop]$ pwd
/home/hadoop/hadoop
[hadoop@server1 hadoop]$ mkdir input
[hadoop@server1 hadoop]$ ls
bin etc include input lib libexec LICENSE.txt NOTICE.txt README.txt sbin share
[hadoop@server1 hadoop]$ cp etc