Hadoop---在HDFS集群基础上搭建Map/Reduce集群_hadoop集群主节点上搭建mapreduce开发环境-优快云博客

1. 硬件：VMWARE 虚拟机   * 4台，256M内存,20G硬盘
     操作系统： RHEL_64_5.4

2. 基本软件架构部署：
               IP地址               主机名称                              目录                                          功能
    1. 192.168.204.128    master                        /data/ Hadoop /name                        namenode节点
                                                                            /data/hadoop/mapred_local_dir      jobtracker 节点
    2. 192.168.204.129    secondarynamenode    /data/hadoop/namesecondary       secondarynamenode节点

    3. 192.168.204.130     slave01                       /data/hadoop/data01、data02        datanode节点
                                                                           /data/hadoop/mapred_local_dir       tasktracker 节点
    4. 192.168.204.134     slave02                       /data/hadoop/data01、data02        datanode节点
                                                                           /data/hadoop/mapred_local_dir       tasktracker 节点

3. 配置文件
     core-site.sml
    <configuration>
        <property>
                <name> hadoop.tmp.dir </name>
                <value> /data/hadoop/tmp </value>
        </property>
        <property>
                <name> fs.default.name </name>
                <value> hdfs://192.168.204.128:9000 </value>
        </property>
     </configuration>

     hdfs-site.xml
    <configuration>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
        <property>
                <name> dfs.name.dir </name>
                <value> /data/hadoop/name </value>
        </property>
        <property>
                <name> dfs.data.dir </name>
                <value> /data/hadoop/data01,/data/hadoop/data02 </value>
        </property>
        <property>
                <name> fs.checkpoint.dir </name>
                <value> /data/hadoop/namesecondary </value>
        </property>
    </configuration>

      mapred-site.xml
     <configuration>
        <property>
                <name> mapred.job.tracke r</name>
                <value> 192.168.204.128:8021 </value>
        </property>
        <property>
                <name> mapred.local.dir </name>
                <value> /data/hadoop/mapred_local_dir </value>
        </property>
        <property>
                <name> mapred.system.dir </name>
                <value> mapred_system_dir </value>
        </property>
        <property>
                <name> mapred.tasktracker.map.tasks.maximum </name>
                <value> 2 </value>
        </property>
        <property>
                <name> mapred.tasktracker.reduce.tasks.maximum </name>
                <value> 2 </value>
        </property>
        <property>
                <name> mapred.child.java.opts </name>
                <value> -Xmx128m </value>
        </property>
     </configuration>

      masters (secondarynamenode)
     192.168.204.129

     slaves (datanode 和 tasktracker节点)
     192.168.204.130
     192.168.204.134

4. 修改hosts 系统文件
    # vi /etc/hosts
     192.168.204.128         master
     192.168.204.130         slave01
     192.168.204.134         slave02
     192.168.204.129         secondrynamenode

     其他诸如ssh配置，各个服务器上的配置文件保持一致等，此处省略。。。。。。。。。。

5. 启动hadoop
    1）格式化namenode
          在master服务器上，执行
          # ./hadoop namenode -format
    2）启动hdfs集群
          # ./start-dfs.sh
              正常情况下，
        在master服务器上，将会启动 namenode进程
        在sencondarynamenode服务器，将会启动secondarynamenode进程
              在slave01，slave02服务器上，将会启动datanode进程
        # ps aux | grep java
        /usr/local/jdk1.6.0_26/bin/java -Dproc_namenode -Xmx128m                  （master）
        /usr/local/jdk1.6.0_26/bin/java -Dproc_datanode -Xmx128m                    （slave01）
        /usr/local/jdk1.6.0_26/bin/java -Dproc_datanode -Xmx128m                    （slave02）
              /usr/local/jdk1.6.0_26/bin/java -Dproc_secondarynamenode -Xmx128m （secondarynamenode）

       3）启动map/reduce集群
            # ./start-mapred.sh
               正常情况下，
               在master服务器上，将会启动 jobtracker 进程
               在slave01、slave02服务器上，将会启动 tasktracker进程
                # ps aux | grep java
                /usr/local/jdk1.6.0_26/bin/java -Dproc_jobtracker -Xmx128m       (master)
                /usr/local/jdk1.6.0_26/bin/java -Dproc_tasktracker -Xmx128m     (slave01)
                /usr/local/jdk1.6.0_26/bin/java -Dproc_tasktracker -Xmx128m     (slave02)

          注意查看各个日志文件是否有报错。
           mapred-site.xml 配置文件的参数，查看手册。