CentOS 6.5 伪分布式 安装 hadoop 2.6.0

本文详细介绍如何在Linux环境下安装和配置Hadoop集群,包括安装JDK、创建Hadoop用户、解压配置Hadoop文件、设置环境变量等关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

安装 jdk

1 yum install java-1.7.0-openjdk*
3 检查安装:java -version

 

创建Hadoop用户,设置Hadoop用户使之可以免密码ssh到localhost

1 su - hadoop  
2 ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa    
3 cat ~/.ssh/id_dsa.pub>> ~/.ssh/authorized_keys  
4   
5 cd /home/hadoop/.ssh   
6 chmod 600 authorized_keys  

注意这里的权限问题,保证.ssh目录权限为700,authorized_keys为600

验证:

1 [hadoop@localhost .ssh]$ ssh localhost  
2 Last login: Sun Nov 17 22:11:55 2013  

 

解压hadoop,安装在/opt/hadoop

1 tar -xzvf hadoop-2.6.0.tar.gz
2 mv -i /home/erik/hadoop-2.6.0 /opt/hadoop  
3 chown -R hadoop /opt/hadoop  

 

要修改的文件有hadoop-env.sh、core-site.xml  、 hdfs-site.xml 、 yarn-site.xml 、mapred-site.xml几个文件。

1 cd /usr/opt/hadoop/etc/hadoop  

 

设置hadoop-env.sh中的java环境变量,改成这样JAVA_HOME好像没效

1 export JAVA_HOME= {你的java环境变量} 

 

core-site.xml

 1 <configuration>  
 2     <property>  
 3         <name>hadoop.tmp.dir</name>  
 4         <value>/opt/hadoop/tmp</value>
 5     </property>  
 6     <property>  
 7         <name>fs.default.name</name>  
 8         <value>localhost:9000</value>  
 9     </property>  
10 </configuration> 

 

hdfs.xml

 1 <configuration> 
 2 <property>
 3         <name>dfs.replication</name>
 4         <value>1</value>
 5     </property>
 6     <property>
 7         <name>dfs.namenode.name.dir</name>
 8         <value>/opt/hadoop/dfs/name</value>
 9     </property>
10     <property>
11         <name>dfs.datanode.data.dir</name>
12         <value>/opt/hadoop/dfs/data</value>
13     </property>
14     <property>
15             <name>dfs.permissions</name>
16             <value>false</value>
17      </property>
18  </configuration>    

 

yarn-site.xml

 1 <configuration>
 2 <property>
 3 <name>mapreduce.framework.name</name>
 4 <value>yarn</value>
 5 </property>
 6   
 7 <property>
 8 <name>yarn.nodemanager.aux-services</name>
 9 <value>mapreduce_shuffle</value>
10 </property>
11 </configuration>

 

mapred-site.xml

1 <configuration>
2 <property>
3 <name>mapred.job.tracker</name>
4 <value>localhost:9001</value>
5 </property>
6 </configuration>

 

配置环境变量,修改/etc/profile, 写在最后面即可。配置完要重启!!!

 1 export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.95.x86_64
 2 export JRE_HOME=$JAVA_HOME/jre
 3 export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/bin
 4 export HADOOP_INSTALL=/opt/hadoop
 5 export PATH=${HADOOP_INSTALL}/bin:${HADOOP_INSTALL}/sbin${PATH}
 6 export HADOOP_MAPRED_HOME=${HADOOP_INSTALL}
 7 export HADOOP_COMMON_HOME=${HADOOP_INSTALL}
 8 export HADOOP_HDFS_HOME=${HADOOP_INSTALL}
 9 export YARN_HOME=${HADOOP_INSTALLL}
10 export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_INSTALL}/lib/natvie
11 export HADOOP_OPTS="-Djava.library.path=${HADOOP_INSTALL}/lib:${HADOOP_INSTALL}/lib/native"

 

之后就是见证奇迹的时候了,

1 cd /opt/hadoop/

 

格式化hdfs

1 bin/hdfs namenode -format 

 

启动hdfs

1 sbin/start-dfs.sh 
2 sbin/start-yarn.sh

 

理论上会见到

1 Starting namenodes on [localhost]  
2 localhost: starting namenode, logging to /usr/opt/hadoop-2.6.0/logs/hadoop-hadoop-namenode-.out  
3 localhost: starting datanode, logging to /usr/opt/hadoop-2.6.0/logs/hadoop-hadoop-datanode-.out  
4 Starting secondary namenodes [0.0.0.0]  
5 0.0.0.0: starting secondarynamenode, logging to /usr/opt/hadoop-2.6.0/logs/hadoop-hadoop-secondarynamenode-.out  

输入网址127.0.0.1:50070就可以看见hadoop的网页了,这就说明成功了。

 

参考:

http://www.centoscn.com/hadoop/2015/0118/4525.html

http://blog.youkuaiyun.com/yinan9/article/details/16805275

http://www.aboutyun.com/thread-10554-1-1.html

转载于:https://www.cnblogs.com/deliver/p/5295321.html

### CentOS 7 上 Hadoop 伪分布式安装教程 #### 配置环境 在 CentOS 7 中,Hadoop伪分布式模式是一种常见的测试和学习方式。它允许单台机器模拟多节点集群的行为。以下是完整的流程: 1. **准备基础环境** 安装 Java 开发工具包 (JDK),因为 Hadoop 是基于 Java 构建的软件[^1]。可以通过以下命令来确认 JDK 是否已正确安装以及版本号: ```bash java -version ``` 如果未安装,则可以使用 `yum` 命令完成安装: ```bash sudo yum install java-1.8.0-openjdk-devel.x86_64 ``` 2. **设置环境变量** 编辑 `/etc/profile` 文件,在其中添加 JAVA_HOME 路径,并通过 source 加载配置文件以使更改生效[^2]: ```bash export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk export PATH=$JAVA_HOME/bin:$PATH ``` 使用以下命令加载修改后的 profile 文件: ```bash source /etc/profile ``` 3. **下载并解压 Hadoop** 下载最新稳定版 Hadoop 并将其放置到合适目录中,例如 `/opt/hadoop/` 或者用户的家目录下。假设我们选择了后者: ```bash wget https://archive.apache.org/dist/hadoop/common/hadoop-X.X.X/hadoop-X.X.X.tar.gz tar -xzvf hadoop-X.X.X.tar.gz -C ~/hadoop/ cd ~/hadoop/etc/hadoop/ ``` 4. **编辑核心配置文件** 修改以下几个主要配置文件的内容以便支持伪分布式的运行。 - **core-site.xml**: 设置默认文件系统的 URI 地址。 ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> ``` - **hdfs-site.xml**: 指定 NameNode 数据存储位置以及其他参数。 ```xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> ``` - **mapred-site.xml**: 更改 MapReduce 运行框架为 YARN。 ```xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` - **yarn-site.xml**: 设定 ResourceManager 和 NodeManager 的地址信息。 ```xml <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> ``` 5. **格式化 Namenode** 执行如下命令初始化 HDFS 文件系统结构: ```bash hdfs namenode -format ``` 6. **启动服务** 启动 HDFS 和 YARN 服务之前,请确保 SSH 已经被正确配置并且无密码登录已经实现。接着依次执行下面两条指令开启相关进程: ```bash start-dfs.sh start-yarn.sh ``` 7. **验证状态** 浏览器访问 Web UI 页面查看各组件的状态,默认端口分别为: - HDFS 状态页面:http://<your-ip>:50070 - YARN Resource Manager 页面:http://<your-ip>:8088 最后可通过简单的 WordCount 示例程序进一步检验整个平台的功能是否正常工作。 ```python from subprocess import call call(['hadoop', 'jar', '/path/to/examples.jar', 'wordcount', '/input/path', '/output/path']) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值