一、下载VMware虚拟机,并在虚拟机上安装centos7系统
具体的安装过程可见:VMware下安装centos6.7的步骤 - 还能和老板谈感情吗 - 博客园
接下来给虚拟机进行NAT设置:详情可见我上传的文件《VMware中CentOS 设置固定IP同时连接内外网》
二、hadoop环境的搭建
下载jdk 和 hadoop 放到 ~/software目录下 然后解压到 ~/app目录下
tar -zxvf 压缩包名字 -C ~/app/
配置环境变量
vi ~/.bashrc
export JAVA_HOME=/home/hadoop/app/jdk1.8.0_91
export PATH=$JAVA_HOME/bin:$PATH
export HADOOP_HOME=/home/hadoop/app/hadoop......
export PATH=$HADOOP_HOME/bin:$PATH
#保存退出后
source ~/.bashrc
进入到解压后的hadoop目录 修改配置文件
-
配置文件作用
-
core-site.xml 指定hdfs的访问方式
-
hdfs-site.xml 指定namenode 和 datanode 的数据存储位置
-
mapred-site.xml 配置mapreduce
-
yarn-site.xml 配置yarn
-
-
修改hadoop-env.sh
cd etc/hadoop
vi hadoop-env.sh
#找到下面内容添加java home
export_JAVA_HOME=/home/hadoop/app/jdk1.8.0_91
-
修改 core-site.xml 在 <configuration>节点中添加
<property>
<name>fs.default.name</name>
<value>hdfs://hadoop000:8020</value>
</property>
-
修改hdfs-site.xml 在 configuration节点中添加
<property> <name>dfs.namenode.name.dir</name> <value>/home/hadoop/app/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hadoop/app/tmp/dfs/data</value> </property> <property> <name>dfs.replication</name> <value>1</value> </property>
-
修改 mapred-site.xml
-
默认没有这个 从模板文件复制
cp mapred-site.xml.template mapred-site.xml
在mapred-site.xml 的configuration 节点中添加
-
<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
-
修改yarn-site.xml configuration 节点中添加
-
<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>
来到hadoop的bin目录
cd ./hadoop namenode -format (这个命令只运行一次)
启动hdfs 进入到 sbin
-
./start-dfs.sh
-
启动启动yarn 在sbin中
几个要注意的地方:
- 如果你是hadoop运行模式是伪分布式,那么namenode和datanode是在同一个机器中,那么需要修改hadoop目录下的 etc/slaves文件。
hadoop000设置成你的主机名,剩下的注释即可。
- 如果在操作hdfs是,显示 name node is safe,使用hdfs dfsadmin -safemode leave即可关闭安全模式。