HADOOP伪分布式安装

本文详细介绍Hadoop环境搭建步骤,包括JDK安装、SSH配置、无密码登录设置及Hadoop软件下载。深入解析核心配置文件调整方法,并通过示例程序验证集群运行状态。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、环境搭建

1)安装JDK
hadoop是java编写的,首先自然是要安装jdk了,在ubuntu和debian上可以直接用apt-get install sun-java6-jdk安装即可。

2)安装SSH
可以安装open-ssh-server。

3)在namenode上面实现无密码登录
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 
输入上面的命令回车,完成后会在 ~/.ssh/ 生成两个文件: id_dsa 和 id_dsa.pub 。这两个是成对出 现,类似钥匙和锁。  再把 id_dsa.pub 追加到授权 key 里面 ( 当前并没有 authorized_keys文件 ) : 
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 
完成后可以实现无密码录本机: ssh localhost 。 若此时连接不上,检查sshd服务是否打开。可以用命令:service sshd start开启服务。
4)下载hadoop
这次我下载的是hadoop的1.2.1版本,应该是最新的稳定版。地址:http://www.apache.org/dyn/closer.cgi/hadoop/common/

二、hadoop配置

解压下载的hadoop.tar.gz文件,配置文件全部位于conf目录中。主要配置下面四个配置文件,具体配置参数的含义参见:http://www.cnblogs.com/ggjucheng/archive/2012/04/17/2454590.html
1)配置hadoop-env.xml
export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.26/
export HADOOP_SSH_OPTS="-p 1220"
其中只需要配置java路径,如果ssh端口默认不是22,请设置HADOOP_SSH_OPTS。
2)配置masters和slaves文件,默认都是localhost。我的这个hadoop只用了一台机器,所以不修改。
如果是多台机器,则在masters中配置master,slaves中配置其他节点ip。
3)配置core-site.xml
<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/tmp</value>
    </property>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:6990</value>
    </property>
</configuration>
4)配置hdfs-site.xml
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.name.dir</name>
        <value>/home/hadoop/name</value>
        <description>  </description>
    </property>
    <property>
        <name>dfs.data.dir</name>
        <value>/home/hadoop/data</value>
        <description> </description>
    </property>
</configuration>
5)配置mapred-site.xml
<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>localhost:6991</value>
    </property>
</configuration>


三、运行hadoop

1) 格式化文件系统
bin/hadoop namenode -format
2)启动hadoop
bin/start-all.sh
3)启动完成用命令jps查看,如果有如下几个进程,代表hadoop启动成功了。
3733 SecondaryNameNode
12592 Jps
3829 JobTracker
3501 NameNode
3942 TaskTracker
3616 DataNode
4)启动成功后,可以通过命令和WEB查看hadoop运行状态。
查看集群状态: $ hadoop dfsadmin -report 
Hadoop 的 web 方式查看: http://localhost:50070 

四、示例程序

hadoop最经典的示例当然是wordcount程序了,类似于其他语言中的helloworld。运行方法如下:
1)先在本地磁盘建立两个输入文件file01和file02:
$echo“hello world bye world”>file01
$echo“hello hadoop goodbye hadoop”>file02
2)在hdfs中建立一个input目录:$hadoop fs –mkdir input
3)将file01和file02拷贝到hdfs中:
bin/hadoop fs –copyFromLocal /home/hadoop/file0*  input

4)执行wordcount:

bin/hadoop jar hadoop-examples-1.2.1.jar wordcount input output
5)完成之后,查看结果:
gzshishujuan@onlinegame-11-219:~/hadoop$ bin/hadoop fs -cat output/part-r-00000
bye	1
goodbye	1
hadoop	2
hello	2
world	2









标题基于Spring Boot的骑行路线规划与分享平台研究AI更换标题第1章引言介绍骑行路线规划与分享平台的研究背景、意义、国内外现状以及本论文的方法和创新点。1.1研究背景与意义分析骑行运动普及和路线分享需求,阐述平台设计的必要性。1.2国内外研究现状概述国内外在骑行路线规划与分享方面的技术发展和应用现状。1.3研究方法与创新点说明本文采用的研究方法和实现的创新功能。第2章相关理论与技术介绍Spring Boot框架、路线规划算法和分享技术的基础理论。2.1Spring Boot框架概述解释Spring Boot的核心概念和优势,以及在本平台中的应用。2.2路线规划算法原理阐述常用的路线规划算法,如Dijkstra、A等,并分析其适用场景。2.3分享技术实现方式介绍平台实现路线分享所采用的技术手段,如社交媒体集成、二维码生成等。第3章平台需求分析与设计详细阐述骑行路线规划与分享平台的需求分析、系统设计和数据库设计。3.1需求分析从用户角度出发,分析平台应具备的功能和性能要求。3.2系统设计设计平台的整体架构、模块划分以及各模块之间的交互方式。3.3数据库设计根据平台需求,设计合理的数据库表结构和数据存取方式。第4章平台实现与测试说明平台的开发环境、关键模块的实现过程,以及系统测试的方法与结果。4.1开发环境搭建介绍开发平台所需的软硬件环境及其配置方法。4.2关键模块实现详细描述路线规划、路线分享等核心功能的实现细节。4.3系统测试与性能评估对平台进行功能测试、性能测试,并分析结果以验证系统的稳定性和可靠性。第5章结论与展望总结本文的研究成果,指出不足之处,并展望未来的研究方向和改进措施。5.1研究结论概括性地阐述本文的主要研究内容和取得的成果。5.2未来工作展望针对当前研究的局限性,提出未来可能的改进方向和扩展功能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值