搭建hadoop2.4.0伪分布式

最新推荐文章于 2024-10-22 15:04:02 发布

原创最新推荐文章于 2024-10-22 15:04:02 发布 · 122 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #运维 #java

hadoop 专栏收录该内容

20 篇文章

订阅专栏

本文详细介绍如何在Ubuntu环境下搭建Hadoop伪分布式集群，包括所需软件的下载与安装、环境变量配置、SSH免密码登录设置、Hadoop配置文件调整、集群启动与验证步骤等。

+==========================================搭建伪分布式hadoop===========================

+======================================准备工作/下载及安装软件开始===========================
0.下载新新版本的ubuntu
见网上教程
1.JDK下载安装
下载地址：http://download.oracle.com/otn-pub/java/jdk/8u5-b13/jdk-8u5-linux-x64.tar.gz
减压：tar –zxvf jdk-8u5-linux-x64.tar.gz
环境变量：
vim /etc/profile
export JAVA_HOME=/opt/hadoop/software/jdk-8u5
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin: $PATH
验证：java –version
2.maven下载安装
下载地址：http://apache.fayea.com/apache-mirror/maven/maven-3/3.2.1/binaries/apache-maven-3.2.1-bin.tar.gz
减压：tar –xvf apache-maven-3.2.1-bin.tar.gz
环境变量：
vim /etc/profile
export MAVEN_HOME=/opt/hadoop/software/apache-maven-3.1.1
export PATH=$MAVEN_HOME/bin:$PATH
验证：mvn –version
3.ProtoclBuffer下载安装
下载地址：https://code.google.com/p/protobuf/downloads/detail?name=protobuf-2.5.0.tar.gz&can=2&q=
减压：tar –xvf protobuf-2.5.0.tar.gz
安装：
./configure --prefix=/opt/hadoop/software/protobuf
make
make install
环境变量：
vim /etc/profile
export PROTOC_HOME=/opt/hadoop/software/protobuf
PATH=$PROTOC_HOME/bin:$PATH
验证：protoc –-version
4.CMake下载安装
下载地址：http://www.cmake.org/files/v2.8/cmake-2.8.12.2.tar.gz
减压：tar –xvf cmake-2.8.12.2.tar.gz
安装：
./bootstrap –prefix=/home/hadoop/software/cmake
make
make install
环境变量：
vim /etc/profile
export CMAKE_HOME=/opt/hadoop/software/cmake
PATH=$ CMAKE_HOME/bin:$PATH
验证：cmake –version
5.安装其他依赖软件
yum install openssl-devel
yum install ncurses-devel
6.hadoop源码下载编译安装
下载地址：http://apache.fayea.com/apache-mirror/hadoop/common/hadoop-2.4.0/hadoop-2.4.0-src.tar.gz
减压：tar –xvf hadoop-2.4.0-src.tar.gz
编译：
目录/opt/hadoop/hadoop-2.4.0-src中，执行命令
mvn package -DskipTests -Pdist,native

进入cd hadoop-2.4.0/etc/hadoop/
给所有的.sh 文件增加可执行权限
chmod +x *.sh
环境变量：
vim /etc/profile
export HADOOP_PREFIX=/usr/local/hadoop
export PATH=$JAVA_HOME/bin:$PATH:HADOOP_PREFIX/bin
7.配置SSH免密码登陆
生成公钥和私钥
ssh-keygen -t rsa
进入～/.ssh 目录
cat id_rsa.pub >> authorized_keys
然后使用ssh localhost命令测试ssh是否配置正确
8.hadoop伪分布式配置
A.进入cd hadoop-2.4.0/etc/hadoop/
给所有的.sh 文件增加可执行权限
chmod +x *.sh
B.修改hadoop-env.sh
vim hadoop-env.sh
找到
export JAVA_HOME=${JAVA_HOME}
修改为
export JAVA_HOME=/opt/hadoop/software/jdk-8u5
C.修改core-site.xml；注意：配置hdfs://localhost:9000中hadoop是主机名称，使用hostname命令查看
在configuration节点中增加
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop/hadoop/hadoop-2.4.0/data/tmp</value>
</property>
D.修改hdfs-site.xml
在configuration节点中增加
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
E.修改yarn-site.xml
在configuration节点中增加
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>localhost:8032</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>localhost:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hadoop:8033</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>localhost:8030</value>
</property>
<property>
<name>yarn.web-proxy.address</name>
<value>localhost:8888</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
9.启动hadoop
A.格式化namenode
进入到hadoop安装目录的bin目录下执行：./hadoop namenode –format
B.启动伪分布式集群
进入到hadoop安装目录的sbin目录下执行：./start-all.sh
C.查看启动是否成功
执行jps命令成功结果如下：
7552 Jps
6858 SecondaryNameNode
6380 NameNode
6601 DataNode
7038 ResourceManager
7281 NodeManager

10.浏览器访问查看集群状态
http://localhost:50070
查看resourcemanager上cluster运行状态
http://http://hadoop1:8088/cluster:8088/cluster
11.运行hadoop自带的WordCount小程序（进入到hadoop安装目录的bin目录下）
第一步：./hadoop fs -mkdir -p myIn 在HDFS上创建文件夹myIn
第二步：本地目录下..创建几个文本文件，然后在里边写入单词，如：fileA.txt, fileB.txt.
第三步：./hadoop fs -put file*.txt myIn // 将刚才的几个文件放入到hadoop的文件系统之中
第四步：./hadoop fs -cat input/file01.txt //查看刚刚文本中内容命令
第五步：执行
./hadoop jar /kong/hadoop/lib/hadoop-mapreduce-examples-2.2.0.jar wordcount input output
第六步：hadoop fs -ls output会显示生成的结果文件中
第七步：./hadoop fs -cat output/part-r-00000
第八步： (localhost:8088可以查看到正在运行任务的进度等信息)
第九步：hadoop中HDFS操作命令官网地址： http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html#lsr
+======================================准备工作/下载及安装软件结束===============

或者：
sudo apt-get install maven
sudo apt-get install protobuf-compiler
sudo apt-get install cmake
sudo apt-get install zlib1g.dev
sudo apt-get install g++
sudo apt-get install libglib2.0-dev
sudo apt-get install libssl-dev

+======================================过程中遇到问题及解决办法=========开始===================
1.新建用户后终端只显示user@hostname ~，正常(root@hadoop1:/usr/local/hadoop/sbin#)
解决：查看/etc/passwd该配置文件中，你新建的用户用的是不是bash,不是的话就改过来／ /.bashrc里面加上PS1="[\u@\h \W]\$"就可以了
2.格式化结点（数据结点也启不来） ./hadoop namenode -format
解决：把/opt/hadoop/hadoop2.4.0/data目录全部干掉，因为之前已经格式化过了
3.ubuntu安装完成后，如果是代理下上网的话，需要设置一下火狐浏览器的代理
4.修改主机名称
/etc/hostname文件中内容重启机器（utuntu），重启系统查看
5.执行./hdfs dfsadmin -report 后如下错误：
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform
？？：可能是由于apache提供的32位hadoop版本，而我们在64位机器上装，需要在64位下编译
6.其它就是一些linux系统配置等问题
+======================================过程中遇到问题及解决办法==========结束=========================