1. 硬件
:VMWARE 虚拟机 * 4台,256M内存,20G硬盘
操作系统: RHEL_64_5.4
2. 基本软件架构部署:
IP地址 主机名称 目录 功能
1. 192.168.204.128 master /data/ Hadoop /name namenode节点
/data/hadoop/mapred_local_dir jobtracker 节点
2. 192.168.204.129 secondarynamenode /data/hadoop/namesecondary secondarynamenode节点
3. 192.168.204.130 slave01 /data/hadoop/data01、data02 datanode节点
/data/hadoop/mapred_local_dir tasktracker 节点
4. 192.168.204.134 slave02 /data/hadoop/data01、data02 datanode节点
/data/hadoop/mapred_local_dir tasktracker 节点
3. 配置文件
core-site.sml
<configuration>
<property>
<name> hadoop.tmp.dir </name>
<value> /data/hadoop/tmp </value>
</property>
<property>
<name> fs.default.name </name>
<value> hdfs://192.168.204.128:9000 </value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name> dfs.name.dir </name>
<value> /data/hadoop/name </value>
</property>
<property>
<name> dfs.data.dir </name>
<value> /data/hadoop/data01,/data/hadoop/data02 </value>
</property>
<property>
<name> fs.checkpoint.dir </name>
<value> /data/hadoop/namesecondary </value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name> mapred.job.tracke r</name>
<value> 192.168.204.128:8021 </value>
</property>
<property>
<name> mapred.local.dir </name>
<value> /data/hadoop/mapred_local_dir </value>
</property>
<property>
<name> mapred.system.dir </name>
<value> mapred_system_dir </value>
</property>
<property>
<name> mapred.tasktracker.map.tasks.maximum </name>
<value> 2 </value>
</property>
<property>
<name> mapred.tasktracker.reduce.tasks.maximum </name>
<value> 2 </value>
</property>
<property>
<name> mapred.child.java.opts </name>
<value> -Xmx128m </value>
</property>
</configuration>
masters (secondarynamenode)
192.168.204.129
slaves (datanode 和 tasktracker节点)
192.168.204.130
192.168.204.134
4. 修改hosts 系统文件
# vi /etc/hosts
192.168.204.128 master
192.168.204.130 slave01
192.168.204.134 slave02
192.168.204.129 secondrynamenode
其他诸如ssh配置,各个服务器上的配置文件保持一致等,此处省略。。。。。。。。。。
5. 启动hadoop
1)格式化namenode
在master服务器上,执行
# ./hadoop namenode -format
2)启动hdfs集群
# ./start-dfs.sh
正常情况下,
在master服务器上,将会启动 namenode进程
在sencondarynamenode服务器,将会启动secondarynamenode进程
在slave01,slave02服务器上,将会启动datanode进程
# ps aux | grep java
/usr/local/jdk1.6.0_26/bin/java -Dproc_namenode -Xmx128m (master)
/usr/local/jdk1.6.0_26/bin/java -Dproc_datanode -Xmx128m (slave01)
/usr/local/jdk1.6.0_26/bin/java -Dproc_datanode -Xmx128m (slave02)
/usr/local/jdk1.6.0_26/bin/java -Dproc_secondarynamenode -Xmx128m (secondarynamenode)
3)启动map/reduce集群
# ./start-mapred.sh
正常情况下,
在master服务器上,将会启动 jobtracker 进程
在slave01、slave02服务器上,将会启动 tasktracker进程
# ps aux | grep java
/usr/local/jdk1.6.0_26/bin/java -Dproc_jobtracker -Xmx128m (master)
/usr/local/jdk1.6.0_26/bin/java -Dproc_tasktracker -Xmx128m (slave01)
/usr/local/jdk1.6.0_26/bin/java -Dproc_tasktracker -Xmx128m (slave02)
注意查看各个日志文件是否有报错。
mapred-site.xml 配置文件的参数,查看手册。
操作系统: RHEL_64_5.4
2. 基本软件架构部署:
IP地址 主机名称 目录 功能
1. 192.168.204.128 master /data/ Hadoop /name namenode节点
/data/hadoop/mapred_local_dir jobtracker 节点
2. 192.168.204.129 secondarynamenode /data/hadoop/namesecondary secondarynamenode节点
3. 192.168.204.130 slave01 /data/hadoop/data01、data02 datanode节点
/data/hadoop/mapred_local_dir tasktracker 节点
4. 192.168.204.134 slave02 /data/hadoop/data01、data02 datanode节点
/data/hadoop/mapred_local_dir tasktracker 节点
3. 配置文件
core-site.sml
<configuration>
<property>
<name> hadoop.tmp.dir </name>
<value> /data/hadoop/tmp </value>
</property>
<property>
<name> fs.default.name </name>
<value> hdfs://192.168.204.128:9000 </value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name> dfs.name.dir </name>
<value> /data/hadoop/name </value>
</property>
<property>
<name> dfs.data.dir </name>
<value> /data/hadoop/data01,/data/hadoop/data02 </value>
</property>
<property>
<name> fs.checkpoint.dir </name>
<value> /data/hadoop/namesecondary </value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name> mapred.job.tracke r</name>
<value> 192.168.204.128:8021 </value>
</property>
<property>
<name> mapred.local.dir </name>
<value> /data/hadoop/mapred_local_dir </value>
</property>
<property>
<name> mapred.system.dir </name>
<value> mapred_system_dir </value>
</property>
<property>
<name> mapred.tasktracker.map.tasks.maximum </name>
<value> 2 </value>
</property>
<property>
<name> mapred.tasktracker.reduce.tasks.maximum </name>
<value> 2 </value>
</property>
<property>
<name> mapred.child.java.opts </name>
<value> -Xmx128m </value>
</property>
</configuration>
masters (secondarynamenode)
192.168.204.129
slaves (datanode 和 tasktracker节点)
192.168.204.130
192.168.204.134
4. 修改hosts 系统文件
# vi /etc/hosts
192.168.204.128 master
192.168.204.130 slave01
192.168.204.134 slave02
192.168.204.129 secondrynamenode
其他诸如ssh配置,各个服务器上的配置文件保持一致等,此处省略。。。。。。。。。。
5. 启动hadoop
1)格式化namenode
在master服务器上,执行
# ./hadoop namenode -format
2)启动hdfs集群
# ./start-dfs.sh
正常情况下,
在master服务器上,将会启动 namenode进程
在sencondarynamenode服务器,将会启动secondarynamenode进程
在slave01,slave02服务器上,将会启动datanode进程
# ps aux | grep java
/usr/local/jdk1.6.0_26/bin/java -Dproc_namenode -Xmx128m (master)
/usr/local/jdk1.6.0_26/bin/java -Dproc_datanode -Xmx128m (slave01)
/usr/local/jdk1.6.0_26/bin/java -Dproc_datanode -Xmx128m (slave02)
/usr/local/jdk1.6.0_26/bin/java -Dproc_secondarynamenode -Xmx128m (secondarynamenode)
3)启动map/reduce集群
# ./start-mapred.sh
正常情况下,
在master服务器上,将会启动 jobtracker 进程
在slave01、slave02服务器上,将会启动 tasktracker进程
# ps aux | grep java
/usr/local/jdk1.6.0_26/bin/java -Dproc_jobtracker -Xmx128m (master)
/usr/local/jdk1.6.0_26/bin/java -Dproc_tasktracker -Xmx128m (slave01)
/usr/local/jdk1.6.0_26/bin/java -Dproc_tasktracker -Xmx128m (slave02)
注意查看各个日志文件是否有报错。
mapred-site.xml 配置文件的参数,查看手册。