笔记:在linux里面使用伪分布式的hadoop操作(1.制作 一个文件,里面包含10-20不同的或部分相同的单词。 2.使用wordcount方法实现单词出现频率统计。)


前言

在linux里面使用伪分布式的hadoop操作
1.制作 一个文件,里面包含10-20不同的或部分相同的单词。
2.使用wordcount方法实现单词出现频率统计。

在Linux环境下使用伪分布式Hadoop进行单词出现频率统计是一项常见的任务。Hadoop是一个开源的分布式计算框架,主要用于大规模数据的存储和处理。而在伪分布式环境下,我们可以在单台计算机上模拟出Hadoop的基本功能,以便学习、测试和开发分布式系统,而无需真正的多台物理计算机。

本文将介绍如何在Linux环境中完成以下两个任务:

  1. 制作一个包含10-20个不同或部分相同单词的文本文件。
  2. 使用Hadoop的WordCount方法实现对这些单词出现频率的统计。

通过这个实例,读者将了解到如何在伪分布式环境下配置和运行Hadoop,并利用其强大的分布式计算能力进行数据处理。

一、linux伪分布式是什么?

在Linux环境下,"伪分布式"是指在单台计算机上模拟分布式系统的运行方式。它通常用于学习、测试和开发分布式系统,而无需真正拥有多台物理计算机。

具体来说,伪分布式通常涉及以下几个方面:

  1. 单节点多组件: 在单台计算机上运行多个分布式系统组件,如Hadoop的NameNode、DataNode、ResourceManager、NodeManager等,或者Apache Spark的Master和Worker节点等。

  2. 模拟网络环境: 通过配置虚拟网络或者使用本地主机来模拟多台计算机之间的网络通信。在伪分布式环境中,这些模拟的网络通常是通过localhost或者本地IP地址实现的。

  3. 数据存储和处理: 数据通常会在本地文件系统上进行存储和处理,模拟分布式文件系统或者分布式存储系统的功能。在伪分布式环境中,这些数据通常被分割成多个部分,并在单台计算机上进行处理。

  4. 任务调度和管理: 通过模拟分布式任务调度和管理系统,如YARN(Hadoop的资源管理器)或者Mesos,来管理计算机资源和任务分配。

总的来说,伪分布式提供了一种简便的方式来学习和测试分布式系统的各个方面,而无需投入大量的物理资源和设置复杂的网络环境。然而,它也有其局限性,因为所有的组件都运行在同一台计算机上,所以可能无法完全模拟出真实的分布式系统的行为和性能。

二、实现过程

实验过程中需要把jdk-8u191-linux-x64.tar.gz和hadoop-2.8.5.tar.gz上传到linux目录下,如下图:
准备工作

逐步分析并详细说明每个步骤:

JDK部署

  1. 解压JDK

    • 使用 tar 命令解压 jdk-8u191-linux-x64.tar.gz 文件到 /usr/local 目录:tar xf jdk-8u191-linux-x64.tar.gz -C /usr/local
      解压JDK
  2. 修改目录名称

    • 将解压后的 JDK 目录重命名为 /usr/local/jdkmv /usr/local/jdk1.8.0_191 /usr/local/jdk
      修改目录名称

Hadoop部署

  1. 解压Hadoop

    • 使用 tar 命令解压 hadoop-2.8.5.tar.gz 文件到 /opt 目录:tar xf hadoop-2.8.5.tar.gz -C /opt
      解压Hadoop
  2. 修改目录名称

    • 将解压后的 Hadoop 目录重命名为 /opt/hadoopmv /opt/hadoop-2.8.5 /opt/hadoop
      修改目录名称

Linux系统环境变量配置

  1. 编辑profile文件

    • 使用 vim 编辑器打开 /etc/profile 文件:vim /etc/profile
    • 编辑profile文件
  2. 添加环境变量

    • 在文件末尾添加以下内容:
      export JAVA_HOME=/usr/local/jdk
      export HADOOP_HOME=/opt/hadoop
      export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH
      <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

辞言i

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值