Ubuntu14.04下安装伪分布式Hadoop-2.6.0完整步骤

最新推荐文章于 2024-03-30 14:14:12 发布

月老老了

最新推荐文章于 2024-03-30 14:14:12 发布

阅读量664

点赞数

CC 4.0 BY-SA版权

分类专栏： Hadoop 文章标签： Hadoop Yarn Hadoop-2.6.0 Ubuntu 14.04 大数据

本文链接：https://blog.youkuaiyun.com/dongdongup/article/details/44599155

Hadoop 专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了如何从零开始搭建Hadoop集群，包括VIM编辑器的安装、更改主机名和解析地址、创建Hadoop用户组及用户、安装配置JDK、SSH无密码登录设置、Hadoop安装及配置等关键步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、安装VIM

sudo apt-get install vim

二、更改主机名(Master)

sudo vim /etc/hostname

三、更改主机解析地址

sudo vim /etc/hosts

127.0.0.1       localhost
127.0.1.1      Master

四、创建hadoop用户组和hadoop用户

1.新建hadoop用户组

sudo addgroup hadoop-group

2.新建hadoop用户,并加入hadoop-group

sudo adduser --ingroup hadoop-group hadoop

3.给用户hadoop赋予和root一样的权限

sudo vim /etc/sudoers

root   ALL=(ALL:ALL) ALL
hadoop ALL=(ALL:ALL) ALL

五、安装JDK

1.复制jdk到安装目录

1-1.在/usr/local下新建java目录

cd /usr/local
sudo mkdir java

1-2.将jdk-8u40-linux-i586.tar.gz文件解压至目标文件夹

sudo tar -xzvf jdk-8u40-linux-i586.tar.gz -C /usr/local/java

2.配置环境变量

2-1.打开/etc/profile文件

sudo vim /etc/profile

注意：/etc/profile为全局配置文件，配置后对所有用户生效；~/.bashrc为用户局部配置文件，只对当前用户生效。

2-2.添加如下变量

# /etc/profile: system-wide .profile file for the Bourne shell (sh(1))  
# and Bourne compatible shells (bash(1), ksh(1), ash(1), ...).  
#set java environment  
export JAVA_HOME=/usr/local/java/jdk1.8.0_40  
export JRE_HOME=/usr/local/java/jdk1.8.0_40/jre    
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH  
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH

2-3.使该文件生效

source /etc/profile

3.检查是否安装成功

java -version

六、安装ssh

1.更新apt-get

sudo apt-get update

2.安装openssh-server服务

sudo apt-get install openssh-server

3.建立ssh无密码登录本机

3-1.创建ssh-key

ssh-keygen -t rsa -P ""

3-2.进入~/.ssh/目录下，将id_rsa.pub追加到authorized_keys授权文件中

cd ~/.ssh
cat id_rsa.pub >> authorized_keys 或

cp id_rsa.pub authorized_keys

3-3.登录localhost

ssh localhost

3-4.执行退出命令

exit

七、安装Hadoop

1.解压到（根）~目录下

tar -xzvf hadoop-2.6.0.tar.gz

2.修改Hadoop配置文件，进入${HADOOP_HOME}/etc/hadoop/目录

2-1.在hadoop-env.sh中修改Java安装目录

export JAVA_HOME=/usr/local/java/jdk1.8.0_40

2-2.修改core-site.xml，添加如下内容

<property>
  <name>hadoop.tmp.dir</name>
  <value>/usr/hadoop/hadoop-${user.name}</value>   //不能为/tmp目录，因为hadoop每次重启后会清理/tmp目录
</property>
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://192.168.217.128:9000</value>
</property>

2-3.修改hdfs-site.xml，添加以下内容

<configuration>    
  <property>        
    <name>dfs.namenode.name.dir</name>        
    <value>/usr/local/hadoop/dfs/name</value>    
  </property>
  <property>        
    <name>dfs.datanode.data.dir</name>        
    <value>/usr/local/hadoop/dfs/data</value>    
  </property>    
  <property>        
    <name>dfs.replication</name>        
    <value>1</value>    
  </property> 
</configuration>

2-4.将mapred-site.xml.template重命名为mapred-site.xml，并添加如下内容

<property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
</property>

2-5.修改yarn-site.xml，添加以下内容

<property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
</property>

3.格式化HDFS

bin/hdfs namenode -format

注：bin/hadoop namenode -format命令已过时，这条命令执行完成以后，会在/usr下生成一个hadoop文件夹，里面保存了namenode的格式化信息（需要先使usr目录有可写权限）。

4.启动HDFS

sbin/start-dfs.sh

之后可以通过web界面输入http://localhost:50070查看Hadoop Administration信息

5.启动YARN

sbin/start-yarn.sh

之后可以通过web界面输入http://localhost:8088查看Cluster信息

6.上述HDFS和YARN启动完成后，可通过jps命令查看是否启动成功

hadoop@s1:/usr/local/hadoop$ jps
5748 SecondaryNameNode
5397 NameNode
6375 ResourceManager
6507 NodeManager
5550 DataNode
6719 Jps

7.测试

7-1.测试计算PI，命令如下

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar pi 20 10

7-2.测试 grep，首先需要上传输入文件到HDFS上，命令如下：

bin/hdfs dfs -put etc/hadoop input

运行grep程序，命令如下：

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'