hadoop学习笔记(二)

本文详细介绍了Hadoop单节点环境的搭建步骤,包括下载与安装、配置免密码登录、设置环境变量及各配置文件等。此外,还通过WordCount程序的开发过程,演示了如何使用Hadoop进行简单的数据处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

hadoop学习笔记(二)

我的个人博客站点地址:孙星的个人博客主页
后续的学习笔记:hadoop学习笔记

hadoop单节点的搭建

下载hadoop:

wget http://apache.fayea.com/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz
tar -zxvf hadoop-2.7.1.tar.gz

解压配置免密码登陆:

//生成秘钥
ssh-keygen -t rsa

//一直回车,在当前目录中会出现2个文件,一个是公钥,一个是私钥
id_rsa:         私钥
id_rsa.pub:     公钥

//创建认证文件
cat id_rsa.pub >> authorized_keys

配置hosts

主要是修改其中的hostname和对应的ip,修改如下:



配置相应的配置文件

进入到hadoop的解压目录中,其中etc/hadoop目录是配置目录,进入到目录中可以看到:



其中主要配置的是环境变量(hadoop-env.sh)和core-site.xml,hdfs-site.xml,mapred.site.xml以及yarn-site.xml则五个文件,相关的配置如下:

hadoop-env.sh:



core-site.xml:



hdfs-site.xml:



mapred-site.xml:



yarn-site.sh:



运行hadoop

配置好以后,需要先格式化一下,格式的命令如下:

hadoop namenode -format

格式化NameNode的动作,主要做了一下一下内容:

* 如果dfs.namenode.name.dir对应的文件夹目录不存在,则创建一个目录,并初始化fsimage,和edits并且写入一些初始值,这个动作在文件系统中一样,格式化主要是清空重置。
* 如果对应的目录地址的数据已经存在了,则删除相应的,目录下的文件,在重新建立

格式完hadoop以后就可以启动hadoop了,启动的命令如下:

cd /usr/loca/share/hadoop2.7.1

./sbin/start-all.sh

启动过后的进程数据如下:





hadoop的wordcount的程序的开发

代码结构如下:


流程图

自定义mapper类代码如下:


流程图

自定义reducer类代码如下:


流程图

wordcount程序的数据源:



wordcount程序的执行过程:



wordcount程序的结果展示:



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值