linux 安装 hadoop

本文详细介绍了Hadoop集群的搭建步骤,包括环境准备、JDK安装、Hadoop配置及SSH免密授权等关键环节。

http://cache.baidu.com/c?m=9f65cb4a8c8507ed4fece76310438633460e97634b8f83512c83d81f84642c101a39feeb797f4519d2c77a6d00ae5d19b7b0607d69587cf0d1df883b87e8c47572ca3034010bf64605a01eb8bb3632b553&p=9d6dc64ad3d51dc31dbd9b7911&user=baidu

 

 NOTE:因为hadoop远程调用用的是RPC,所以linux系统必须关闭防火墙
      service iptables stop
     格式化:hadoop namenode -format

1.vi /etc/inittab
  id:5:initdefault:改为id:3:initdefault:即为字符型启动

2.ip configuration:/etc/sysconfig/network-scripts/

3.vi /etc/hosts,add hostname

4.useradd hadoop :增加一个用户
  passwd hadoop  :给用户加密码

5.对于以下文件:
  -rw-r--r-- 1 root root 42266180 Dec 26 10:08 hadoop-0.19.0.tar.gz
  可用如下的命令修改:
  chmod 777 hadoop hadoop-0.19.0.tar.gz :修改文件权限为最大权限
  chown hadoop.hadoop hadoop-0.19.0.tar.gz :修改文件的所有者和组所有者都改为hadoop

6.在每台master和slavers上各增加ssh授权(在hadoop用户下操作)
  用ssh-keygen -t rsa命令后一路三个回车
  cd .ssh
  cp id_rsa.pub authorized_keys
  通过scp将master上的authorized_keys文件Copy到其他所有slaves机器上如:
  scp authorized_keys  root@slave01:/home/hadoop/master_au_keys
  同时将每天slave机器上的authorized_keys也copy到master机器上增加进master的authorized_keys中
  用ssh master或ssh slave01不用密码,即OK!

7.安装JDK
  到sun网站下载JDK安装包jdk-6u11-linux-i586.bin,copy到机器的usr目录中,并在每台机器的root用户下面安装.
  在root用户下:
  cd /usr
  chmod +x jdk-6u11-linux-i586.bin  给安装文件增加执行权限.
  ./jdk-6u11-linux-i586.bin,按提示按几个空格健后,输入yes后开始安装jdk6.
  安装好后,将目录名修改为jdk6.
注(Centos5.2可以不用删除1.4的jdk了):一般linux里安装好后自带一个1.4的jdk,必须删除.
  rpm -qa |grep -i java,将查看到的包含java的rmp包全部删除.
  rpm -e 包名.

  设置JDK的环境变量,考虑到JDK可能会有其他系统用户也会用到,建议将环境变量直接设置在/etc/profile中具体内容:
  export JAVA_HOME=/usr/jdk6
  export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
  export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin
  用source /etc/profile使用java环境生效.

8.Hadoop环境变量设置和配置文件修改
  在conf/hadoop-env文件里增加jdk目录
  export JAVA_HOME=/usr/jdk6

  在masters里增加nameNode机器名:master
  在slavers里增加dataNode机器名:slave01...
 
  在/etc/profile文件中增加hadoop的path路径:
  export HADOOP_HOME=/home/hadoop/hadoop-0.19.0
  export PATH=$PATH:$HADOOP_HOME/bin

  修改hadoop-site.xml
  增加以下内容:

<configuration>
  <property>

   <name>fs.default.name</name>//你的namenode的配置,机器名加端口

   <value>hdfs://10.2.224.46:54310/</value>

</property>

<property>

   <name>mapred.job.tracker</name>//你的JobTracker的配置,机器名加端口

   <value>hdfs://10.2.224.46:54311/</value>

</property>

<property>

   <name>dfs.replication</name>//数据需要备份的数量,默认是三

   <value>1</value>

</property>

<property>

    <name>hadoop.tmp.dir</name>//Hadoop的默认临时路径,这个最好配置,然后在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的tmp目录即可。不过如果删除了NameNode机器的此目录,那么就需要重新执行NameNode格式化的命令了。

    <value>/home/hadoop/tmp/</value>

</property>

<property>

  <name>dfs.name.dir</name>

  <value>/home/hadoop/name/</value>
 
</property>

<property>

  <name>dfs.data.dir</name>

  <value>/home/hadoop/data/</value>
 
</property>

<property>

   <name>mapred.child.java.opts</name>//java虚拟机的一些参数可以参照配置

   <value>-Xmx512m</value>

</property>

<property>

  <name>dfs.block.size</name>//block的大小,单位字节,后面会提到用处,必须是512的倍数,因为采用crc作文件完整性交验,默认配置512是checksum的最小单元。

  <value>5120000</value>

  <description>The default block size for new files.</description>

</property>

</configuration>

-----------------------
启动之前,我们先要格式化namenode,先进入~/HadoopInstall/hadoop目录,执行下面的命令
$bin/hadoop namenode -format

下面就该正式启动hadoop啦,在bin/下面有很多启动脚本,可以根据自己的需要来启动。
* start-all.sh 启动所有的Hadoop守护。包括namenode, datanode, jobtracker, tasktrack
* stop-all.sh 停止所有的Hadoop
* start-mapred.sh 启动Map/Reduce守护。包括Jobtracker和Tasktrack
* stop-mapred.sh 停止Map/Reduce守护
* start-dfs.sh 启动Hadoop DFS守护.Namenode和Datanode
* stop-dfs.sh 停止DFS守护

--------------------------
查看和测试
bin/hadoop dfsadmin -report  查看所有的datanode节点情况

通过web形式去浏览 NameNode和 JobTracker
    * NameNode - http://10.0.0.88:50070
    * JobTracker - http://10.0.0.88:50030

------------------
linux文件compress
打包:tar cvf 打包后文件名.tar  要打包的目录名
压缩:gzip 压缩文件  ==>*.tar.gz

解包: tar xvzf *.tar.gz

### 安装 Hadoop 的主要流程 #### 解压 JDKHadoop 文件 在 Linux 系统中安装 Hadoop 需要先解压缩 JDKHadoop 压缩包至指定目录。以下是具体的命令示例: ```bash [root@localhost install]# tar -zxvf ./jdk-8u321-linux-x64.tar.gz -C ../soft/ [root@localhost install]# tar -zxvf ./hadoop-3.1.3.tar.gz -C ../soft/ ``` 上述操作会将 `JDK` 和 `Hadoop` 分别解压到目标路径下的 `../soft/` 目录中[^1]。 #### 修改文件名 为了便于管理,通常需要对解压后的文件夹重命名。例如可以执行如下命令来简化名称结构: ```bash mv jdk1.8.0_321 jdk mv hadoop-3.1.3 hadoop ``` 这一步骤有助于后续配置过程中减少拼写错误并提高可读性。 #### 设置环境变量 完成解压之后,需设置系统的环境变量以便全局调用 JavaHadoop 命令。编辑 `/etc/profile` 或者当前用户的 `.bashrc` 文件,在其中加入以下内容: ```bash export JAVA_HOME=/path/to/jdk export PATH=$PATH:$JAVA_HOME/bin export HADOOP_HOME=/path/to/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ``` 保存更改后通过运行下面这条指令让新设定立即生效: ```bash source /etc/profile ``` 验证是否正确加载可以通过输入 `java -version` 和 `hadoop version` 来确认版本号显示正常[^2]。 #### 主机映射表调整 (Hosts Configuration) 针对单节点伪分布式或者多节点集群模式部署时都需要适当更新本机的 hosts 映射关系。打开 `/etc/hosts` 文件添加类似这样的条目: ``` 192.168.x.y master 192.168.a.b slave1 ... ``` 这里假设网络地址分别为各台服务器的实际 IP 地址以及自定义主机名。 #### 使用工具传输 Hadoop 软件包 如果采用远程方式上传,则可能需要用到 FTP/SFTP 工具或者其他图形界面客户端实现数据搬运工作;也可以借助 SCP 协议直接从源位置拷贝过来。例如: ```bash scp ./hadoop-3.1.3.tar.gz user@remote_host:/destination/path/ ``` 到达目的地后再按照前述方法展开即可[^3]。 --- ### 总结 以上就是在 Linux 平台上搭建 Hadoop 运行环境的主要环节概述,每步都至关重要不可遗漏任何一个细节部分才能顺利达成最终目的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值