--------------------------------------------------
1.伪分布式的安装
1.1 修改ip
(1)打开VMWare或者VirtualBox的虚拟网卡
(2)在VMWare或者VirtualBox设置网络连接方式为host-only
(3)在linux中,修改ip。有上角的图标,右键,选择Edit Connections....
****ip必须与windows下虚拟网卡的ip在同一个网段,网关必须是存在的。
(4)重启网卡,执行命令service network restart
****报错,如no suitable adapter错误,
(5)验证:执行命令ifconfig
1.2 关闭防火墙
(1)执行命令service iptables stop 关闭防火墙
(2)验证:执行命令service iptables status
1.3 关闭防火墙的自动开启
(1)执行命令chkconfig iptables off
(2)验证:执行命令chkconfig --list|grep iptables
1.4 修改hostname
(1)执行命令hostname cloud4 修改会话中的hostname
(2)验证:执行命令hostname
(3)执行命令vi /etc/sysconfig/network 修改文件中的hostname
(4)验证:执行命令reboot -h now 重启机器
1.5 设置ip与hostname绑定
(1)执行命令vi /etc/hosts
在文本最后增加一行192.168.80.100 cloud4
(2)验证:ping cloud4
1.6 ssh免密码登陆
(1)执行命令ssh-keygen -t rsa 产生秘钥位于/root/.ssh/
(2)执行命令cp /root/.ssh/id_rsa.pub /root/.ssh/authorized_keys 产生授权文件
(3)验证:ssh localhost
1.7 安装jdk
(1)使用winscp把jdk、hadoop复制到linux的/root/Downloads
(2)cp /root/Downloads/* /usr/local
(3)cd /usr/local
赋予执行权限 chmod u+x jdk-6u24-linux-i586.bin
(4)./jdk-6u24-linux-i586.bin
(5)重命名 mv jdk1.6.0_24 jdk
(6)执行命令 vi /etc/profile 设置环境变量
增加两行 export JAVA_HOME=/usr/local/jdk
export PATH=.:$JAVA_HOME/bin:$PATH
保存退出
执行命令 source /etc/profile
(7)验证:执行命令java -version
1.8 安装hadoop_
(1)执行命令 tar -zxvf hadoop-1.1.2.tar.gz 解压缩
(2)执行命令 mv hadoop-1.1.2 hadoop
(3)执行命令 vi /etc/profile 设置环境变量
增加一行 export HADOOP_HOME=/usr/local/hadoop
修改一行 export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH
保存退出
执行命令 source /etc/profile
(4)验证:执行命令 hadoop
(5)修改位于conf/的配置文件hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml
<1>文件hadoop-env.sh的第9行
export JAVA_HOME=/usr/local/jdk/
<2>文件core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://cloud4:9000</value>
<description>change your own hostname</description>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
</configuration>
<3>文件hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
<4>文件mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>cloud4:9001</value>
<description>change your own hostname</description>
</property>
</configuration>
(6)执行命令 hadoop namenode -format 进行格式化
(7)执行命令 start-all.sh 启动hadoop
(8)验证:
<1>执行命令jps 查看java进程,发现5个进程,分别是NameNode、SecondaryNameNode、DataNode、JobTracker、TaskTracker
<2>通过浏览器查看http://cloud4:50070 和 http://cloud4:50030
*****修改windows的C:/Windows/system32/drivers/etc/目录下的hosts文件
Hadoop的分布模式安装
伪分布模式安装比较简单,集群模式是在伪分布模式基础上进行修改的,所以伪分布模式安装必须搞定。
以下是操作步骤
1.确定集群的结构
IP(主机名) 角色
192.168.1.220(hadoop0) NameNode、JobTracker
192.168.1.221(hadoop1) SecondaryNameNode
192.168.1.222(hadoop2) DataNode、TaskTracker
192.168.1.223(hadoop3) DataNode、TaskTracker
由于SecondaryNameNode是执行合并任务的,内存占用特别大,所以单独一台大内存的节点。
以上4个ip可以是单独的物理机,也可以是虚拟机。生产环境中,一般是物理机。
假设各节点安装的linux版本完全一致。
假设各ip已经设置完成了主机名、防火墙关闭、ssh免密码登录等事项。并且在192.168.1.220上已经成功安装了hadoop的伪分布模式。如果还没有搞定的同学,可以参考前面的文章。
2.绑定各ip与主机名的映射关系
修改hadoop0的/etc/hosts文件,增加以下内容
192.168.1.220 hadoop0
192.168.1.221 hadoop1
192.168.1.222 hadoop2
192.168.1.223 hadoop3
目的是在hadoop0上通过主机名可以找到各个机器。
然后在hadoop0的终端中执行命令
scp /etc/hosts hadoop1:/etc
scp /etc/hosts hadoop2:/etc
scp /etc/hosts hadoop3:/etc
该命令是把hadoop0的hosts文件复制到其他节点的对应文件中
3.确保各个节点之间ssh可以免密码登录
在hadoop0的终端中执行以下命令
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop1
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop2
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop3
这样做是把公钥信息拷贝到其他节点中。同理,其他节点也执行类似操作,如hadoop1中执行以下命令
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop0
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop2
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop3
在hadoop2、hadoop3中也执行类似操作。
4.在其他节点搭建环境
首先把hadoop0中的${HADOOP_HOME}/tmp和${HADOOP_HOME}/logs删掉,命令如下。
rm -rf /usr/local/hadoop/tmp
rm -rf /usr/local/hadoop/logs
然后在hadoop0执行以下命令
scp -r /usr/local/hadoop hadoop1:/usr/local
scp -r /usr/local/jdk hadoop1:/usr/local
scp -r /etc/profile hadoop1:/etc/
执行完毕后,把命令中的hadoop1替换为hadoop2执行,替换为hadoop3执行。
以上操作是把hadoop0中的jdk文件夹和hadoop文件夹及环境变量复制到其他节点,避免安装了。
5.修改集群配置文件
在hadoop0的${HADOOP_HOME}/conf目录中,找到masters文件,删除内容,添加hadoop1;
找到slaves文件,删除内容,添加hadoop2和hadoop3,每个节点一行,不能写在一行中。
注意:只修改hadoop0的配置文件,其他节点的任何hadoop配置文件都不能修改。
6.启动集群环境
在hadoop0节点,执行以下命令
hadoop namenode -format
start-all.sh
第一条命令是格式化文件系统,第二条命令是启动hadoop集群。
7.验证是否成功
在hadoop0执行命令jps,可以看到两个java进程,分别是NameNode、JobTracker;
在hadoop1执行命令jps,可以看到一个java进程,是SecondaryNameNode;
在hadoop2执行命令jps,可以看到两个java进程,分别是DataNode、TaskTracker;
在hadoop3执行命令jps,可以看到两个java进程,分别是DataNode、TaskTracker;
恭喜你,搞定了!!
cdu主机:
root rootcdu
cdu10508 rootcdu
wangweislk主机
root hadoop 180.84.33.46
hadoop hadoop
1.伪分布式的安装
1.1 修改ip
(1)打开VMWare或者VirtualBox的虚拟网卡
(2)在VMWare或者VirtualBox设置网络连接方式为host-only
(3)在linux中,修改ip。有上角的图标,右键,选择Edit Connections....
****ip必须与windows下虚拟网卡的ip在同一个网段,网关必须是存在的。
(4)重启网卡,执行命令service network restart
****报错,如no suitable adapter错误,
(5)验证:执行命令ifconfig
1.2 关闭防火墙
(1)执行命令service iptables stop 关闭防火墙
(2)验证:执行命令service iptables status
1.3 关闭防火墙的自动开启
(1)执行命令chkconfig iptables off
(2)验证:执行命令chkconfig --list|grep iptables
1.4 修改hostname
(1)执行命令hostname cloud4 修改会话中的hostname
(2)验证:执行命令hostname
(3)执行命令vi /etc/sysconfig/network 修改文件中的hostname
(4)验证:执行命令reboot -h now 重启机器
1.5 设置ip与hostname绑定
(1)执行命令vi /etc/hosts
在文本最后增加一行192.168.80.100 cloud4
(2)验证:ping cloud4
1.6 ssh免密码登陆
(1)执行命令ssh-keygen -t rsa 产生秘钥位于/root/.ssh/
(2)执行命令cp /root/.ssh/id_rsa.pub /root/.ssh/authorized_keys 产生授权文件
(3)验证:ssh localhost
1.7 安装jdk
(1)使用winscp把jdk、hadoop复制到linux的/root/Downloads
(2)cp /root/Downloads/* /usr/local
(3)cd /usr/local
赋予执行权限 chmod u+x jdk-6u24-linux-i586.bin
(4)./jdk-6u24-linux-i586.bin
(5)重命名 mv jdk1.6.0_24 jdk
(6)执行命令 vi /etc/profile 设置环境变量
增加两行 export JAVA_HOME=/usr/local/jdk
export PATH=.:$JAVA_HOME/bin:$PATH
保存退出
执行命令 source /etc/profile
(7)验证:执行命令java -version
1.8 安装hadoop_
(1)执行命令 tar -zxvf hadoop-1.1.2.tar.gz 解压缩
(2)执行命令 mv hadoop-1.1.2 hadoop
(3)执行命令 vi /etc/profile 设置环境变量
增加一行 export HADOOP_HOME=/usr/local/hadoop
修改一行 export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH
保存退出
执行命令 source /etc/profile
(4)验证:执行命令 hadoop
(5)修改位于conf/的配置文件hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml
<1>文件hadoop-env.sh的第9行
export JAVA_HOME=/usr/local/jdk/
<2>文件core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://cloud4:9000</value>
<description>change your own hostname</description>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
</configuration>
<3>文件hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
<4>文件mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>cloud4:9001</value>
<description>change your own hostname</description>
</property>
</configuration>
(6)执行命令 hadoop namenode -format 进行格式化
(7)执行命令 start-all.sh 启动hadoop
(8)验证:
<1>执行命令jps 查看java进程,发现5个进程,分别是NameNode、SecondaryNameNode、DataNode、JobTracker、TaskTracker
<2>通过浏览器查看http://cloud4:50070 和 http://cloud4:50030
*****修改windows的C:/Windows/system32/drivers/etc/目录下的hosts文件
Hadoop的分布模式安装
伪分布模式安装比较简单,集群模式是在伪分布模式基础上进行修改的,所以伪分布模式安装必须搞定。
以下是操作步骤
1.确定集群的结构
IP(主机名) 角色
192.168.1.220(hadoop0) NameNode、JobTracker
192.168.1.221(hadoop1) SecondaryNameNode
192.168.1.222(hadoop2) DataNode、TaskTracker
192.168.1.223(hadoop3) DataNode、TaskTracker
由于SecondaryNameNode是执行合并任务的,内存占用特别大,所以单独一台大内存的节点。
以上4个ip可以是单独的物理机,也可以是虚拟机。生产环境中,一般是物理机。
假设各节点安装的linux版本完全一致。
假设各ip已经设置完成了主机名、防火墙关闭、ssh免密码登录等事项。并且在192.168.1.220上已经成功安装了hadoop的伪分布模式。如果还没有搞定的同学,可以参考前面的文章。
2.绑定各ip与主机名的映射关系
修改hadoop0的/etc/hosts文件,增加以下内容
192.168.1.220 hadoop0
192.168.1.221 hadoop1
192.168.1.222 hadoop2
192.168.1.223 hadoop3
目的是在hadoop0上通过主机名可以找到各个机器。
然后在hadoop0的终端中执行命令
scp /etc/hosts hadoop1:/etc
scp /etc/hosts hadoop2:/etc
scp /etc/hosts hadoop3:/etc
该命令是把hadoop0的hosts文件复制到其他节点的对应文件中
3.确保各个节点之间ssh可以免密码登录
在hadoop0的终端中执行以下命令
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop1
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop2
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop3
这样做是把公钥信息拷贝到其他节点中。同理,其他节点也执行类似操作,如hadoop1中执行以下命令
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop0
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop2
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop3
在hadoop2、hadoop3中也执行类似操作。
4.在其他节点搭建环境
首先把hadoop0中的${HADOOP_HOME}/tmp和${HADOOP_HOME}/logs删掉,命令如下。
rm -rf /usr/local/hadoop/tmp
rm -rf /usr/local/hadoop/logs
然后在hadoop0执行以下命令
scp -r /usr/local/hadoop hadoop1:/usr/local
scp -r /usr/local/jdk hadoop1:/usr/local
scp -r /etc/profile hadoop1:/etc/
执行完毕后,把命令中的hadoop1替换为hadoop2执行,替换为hadoop3执行。
以上操作是把hadoop0中的jdk文件夹和hadoop文件夹及环境变量复制到其他节点,避免安装了。
5.修改集群配置文件
在hadoop0的${HADOOP_HOME}/conf目录中,找到masters文件,删除内容,添加hadoop1;
找到slaves文件,删除内容,添加hadoop2和hadoop3,每个节点一行,不能写在一行中。
注意:只修改hadoop0的配置文件,其他节点的任何hadoop配置文件都不能修改。
6.启动集群环境
在hadoop0节点,执行以下命令
hadoop namenode -format
start-all.sh
第一条命令是格式化文件系统,第二条命令是启动hadoop集群。
7.验证是否成功
在hadoop0执行命令jps,可以看到两个java进程,分别是NameNode、JobTracker;
在hadoop1执行命令jps,可以看到一个java进程,是SecondaryNameNode;
在hadoop2执行命令jps,可以看到两个java进程,分别是DataNode、TaskTracker;
在hadoop3执行命令jps,可以看到两个java进程,分别是DataNode、TaskTracker;
恭喜你,搞定了!!
cdu主机:
root rootcdu
cdu10508 rootcdu
wangweislk主机
root hadoop 180.84.33.46
hadoop hadoop