-
Hadoop简要介绍
Hadoop 是Apache基金会下一个开源的分布式计算平台,它以分布式文件系统HDFS和MapReduce算法为核心,为用户提供了系统底层细节透明的分布式基础架构。 -
Hadoop生态图
安装包下载
http://mirror.bit.edu.cn/apache/hadoop/common/
或
https://pan.baidu.com/s/1rkX6ZH9YrpcSkMeCY9efvw
安装准备工作:
配置好JDK环境变量
主机名与IP主机映射
SSH机器免密码登陆
防火墙关闭
安装Hadoop伪分布式集群
下载hadoop安装包上传到 /usr/local目录下
解压安装包命令:
tar xzvf hadoop安装包
- hadoop文件目录
- 配置hadoop环境变量
vim /etc/profile
HADOOP_HOME=/usr/local/hadoop-2.7.3
export HADOOP_HOME
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH
#使环境变量生效
source /etc/profile
修改 etc/hadoop 目录下的配置文件
修改25行Java安装目录
export JAVA_HOME=/opt/java/jdk1.8.0_191
hdfs-site.xml
<configuration>
<!--配置数据块的冗余度,默认是3-->
<!--原则冗余度跟数据节点个数保持一致,最大不要超过3-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!--是否开启HDFS的权限检查,默认是true-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
core-site.xml
<configuration>
<!--配置HDFS主节点的地址,就是NameNode的地址-->
<!--9000是RPC通信的端口-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://lgnition:9000</value>
</property>
<!--HDFS数据块和元信息保存在操作系统的目录位置-->
<!--默认是Linux的tmp目录,一定要修改-->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop/data/tmp</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<!--MR程序运行容器或者框架-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml
<configuration>
<!--配置Yarn主节点的位置-->
<property>
<name>yarn.resourcemanager.hostname</name>
<!--设置IP或者IP映射别名-->
<value>lgnition</value>
</property>
<!--NodeManager执行MR任务的方式是Shuffle洗牌-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
Hadoop目录格式化
cd /opt/hadoop/data/tmp
#执行格式化命令
对HDFS的NameNode进行格式化 -----> 目录
hdfs namenode -format
- 启动伪分布集群
start-all.sh