文章目录
前言
在linux里面使用伪分布式的hadoop操作
1.制作 一个文件,里面包含10-20不同的或部分相同的单词。
2.使用wordcount方法实现单词出现频率统计。
在Linux环境下使用伪分布式Hadoop进行单词出现频率统计是一项常见的任务。Hadoop是一个开源的分布式计算框架,主要用于大规模数据的存储和处理。而在伪分布式环境下,我们可以在单台计算机上模拟出Hadoop的基本功能,以便学习、测试和开发分布式系统,而无需真正的多台物理计算机。
本文将介绍如何在Linux环境中完成以下两个任务:
- 制作一个包含10-20个不同或部分相同单词的文本文件。
- 使用Hadoop的WordCount方法实现对这些单词出现频率的统计。
通过这个实例,读者将了解到如何在伪分布式环境下配置和运行Hadoop,并利用其强大的分布式计算能力进行数据处理。
一、linux伪分布式是什么?
在Linux环境下,"伪分布式"是指在单台计算机上模拟分布式系统的运行方式。它通常用于学习、测试和开发分布式系统,而无需真正拥有多台物理计算机。
具体来说,伪分布式通常涉及以下几个方面:
-
单节点多组件: 在单台计算机上运行多个分布式系统组件,如Hadoop的NameNode、DataNode、ResourceManager、NodeManager等,或者Apache Spark的Master和Worker节点等。
-
模拟网络环境: 通过配置虚拟网络或者使用本地主机来模拟多台计算机之间的网络通信。在伪分布式环境中,这些模拟的网络通常是通过localhost或者本地IP地址实现的。
-
数据存储和处理: 数据通常会在本地文件系统上进行存储和处理,模拟分布式文件系统或者分布式存储系统的功能。在伪分布式环境中,这些数据通常被分割成多个部分,并在单台计算机上进行处理。
-
任务调度和管理: 通过模拟分布式任务调度和管理系统,如YARN(Hadoop的资源管理器)或者Mesos,来管理计算机资源和任务分配。
总的来说,伪分布式提供了一种简便的方式来学习和测试分布式系统的各个方面,而无需投入大量的物理资源和设置复杂的网络环境。然而,它也有其局限性,因为所有的组件都运行在同一台计算机上,所以可能无法完全模拟出真实的分布式系统的行为和性能。
二、实现过程
实验过程中需要把jdk-8u191-linux-x64.tar.gz和hadoop-2.8.5.tar.gz上传到linux目录下,如下图:
逐步分析并详细说明每个步骤:
JDK部署
-
解压JDK:
- 使用
tar
命令解压jdk-8u191-linux-x64.tar.gz
文件到/usr/local
目录:tar xf jdk-8u191-linux-x64.tar.gz -C /usr/local
- 使用
-
修改目录名称:
- 将解压后的 JDK 目录重命名为
/usr/local/jdk
:mv /usr/local/jdk1.8.0_191 /usr/local/jdk
- 将解压后的 JDK 目录重命名为
Hadoop部署
-
解压Hadoop:
- 使用
tar
命令解压hadoop-2.8.5.tar.gz
文件到/opt
目录:tar xf hadoop-2.8.5.tar.gz -C /opt
- 使用
-
修改目录名称:
- 将解压后的 Hadoop 目录重命名为
/opt/hadoop
:mv /opt/hadoop-2.8.5 /opt/hadoop
- 将解压后的 Hadoop 目录重命名为
Linux系统环境变量配置
-
编辑profile文件:
- 使用
vim
编辑器打开/etc/profile
文件:vim /etc/profile
- 使用
-
添加环境变量:
- 在文件末尾添加以下内容:
export JAVA_HOME=/usr/local/jdk export HADOOP_HOME=/opt/hadoop export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH <
- 在文件末尾添加以下内容: