hadoop学习笔记(二)

最新推荐文章于 2022-06-01 23:00:00 发布

原创最新推荐文章于 2022-06-01 23:00:00 发布 · 8.9k 阅读

CC 4.0 BY-SA版权

文章标签：

2 篇文章

订阅专栏

本文详细介绍了Hadoop单节点环境的搭建步骤，包括下载与安装、配置免密码登录、设置环境变量及各配置文件等。此外，还通过WordCount程序的开发过程，演示了如何使用Hadoop进行简单的数据处理。

我的个人博客站点地址：孙星的个人博客主页
后续的学习笔记：hadoop学习笔记

wget http://apache.fayea.com/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz
tar -zxvf hadoop-2.7.1.tar.gz

//生成秘钥
ssh-keygen -t rsa

//一直回车,在当前目录中会出现2个文件,一个是公钥,一个是私钥
id_rsa:         私钥
id_rsa.pub:     公钥

//创建认证文件
cat id_rsa.pub >> authorized_keys

主要是修改其中的hostname和对应的ip,修改如下:

进入到hadoop的解压目录中,其中etc/hadoop目录是配置目录,进入到目录中可以看到:

其中主要配置的是环境变量(hadoop-env.sh)和core-site.xml,hdfs-site.xml,mapred.site.xml以及yarn-site.xml则五个文件,相关的配置如下:

hadoop-env.sh:

core-site.xml:

hdfs-site.xml:

mapred-site.xml:

yarn-site.sh:

配置好以后,需要先格式化一下,格式的命令如下:

hadoop namenode -format

格式化NameNode的动作,主要做了一下一下内容：

* 如果dfs.namenode.name.dir对应的文件夹目录不存在,则创建一个目录,并初始化fsimage,和edits并且写入一些初始值,这个动作在文件系统中一样,格式化主要是清空重置。
* 如果对应的目录地址的数据已经存在了,则删除相应的,目录下的文件,在重新建立

格式完hadoop以后就可以启动hadoop了,启动的命令如下:

cd /usr/loca/share/hadoop2.7.1

./sbin/start-all.sh

启动过后的进程数据如下：

代码结构如下:

自定义mapper类代码如下:

自定义reducer类代码如下:

wordcount程序的数据源：

wordcount程序的执行过程：

wordcount程序的结果展示: