从CentOS到Hadoop(Linux CentOS 7 安装配置Hadoop伪分布过程详解)

这篇博客详细介绍了如何在CentOS 7系统上安装配置Hadoop伪分布环境,包括虚拟机安装、CentOS系统配置、SSH无密码登录、Java环境配置以及Hadoop0.20.0的安装步骤。作者分享了安装过程中的注意事项和配置细节,适合初学者参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

零、前言

一、虚拟机安装及CentOS系统配置

二、CentOS系统及网络配置

三、SSH无密码登录

四、Java安装及环境配置

五、Hadoop0.20.0伪分布环境安装

六、运行示例

七、参考与感谢



零、前言

(一)、前言

最近在做wikipedia的东西,需要大规模处理数据,因此就需要使用hadoop工具操作。一开始想安装的linux版本是ubuntu 14和hadoop 2.x版本,但是安装完成后发现操作wiki的jar包要比较老版本的hadoop,最终选择了使用较多的CentOS 7版本的linux系统和hadoop 0.20.0版本。java环境配置的jdk1.7,自从jdk更新为jdk和jar合并以后,很多地方都不太适应,1.8版本又怕不契合最终选择jdk 1.7安装。

由于每个linux系统操作不太一样,所以要看安装要版本对应。不同hadoop版本的前部分安装大同小异,一直到第五部分的(一)步骤都是一样的,可以进行些参考。有一些步骤是我认为方便后续操作的,觉得麻烦可以忽略,因为这段时间配置过了很多遍,会写的比较详细,尽量做到傻瓜操作。强调一下:本文配置的是伪分布模式伪分布伪分布!。不说废话了,进入正题。

(二)、所需软件安装包、压缩包及下载地址

1. VMware Workstation 14(虚拟机软件):链接:https://pan.baidu.com/s/1auDLNGooMD4khVcyLfwBBQ  提取码:4trs 

2. JDK 1.7 linux x64版:链接:https://pan.baidu.com/s/1r0fT27FrEmECjePIOvOiJg  提取码:qg32 

3. Hadoop 0.20.0 版本 :链接:https://pan.baidu.com/s/1-wkxdhXaOAFTkncp2dlWig  提取码:8lcs 

4. Linux系统安装镜像CentOS 7(清华):http://mirrors.tuna.tsinghua.edu.cn/centos/7.6.1810/isos/x86_64/CentOS-7-x86_64-DVD-1810.iso(同时吐槽一下百度云吃相越来越难看,不是会员大于4g的文件不能上传!)

一、虚拟机安装及CentOS系统配置

(一)、VMware虚拟机软件安装(其实这里没什么好说的就是普通的软件安装)

1.下载完成之后解压

2.打开解压后的文件中就是安装包

3.打开上图显示的exe文件进行安装,注意路径这里尽量不要装在C盘就OK。

(二)、CentOS系统安装

1. 打开VMware,点击“创建新的虚拟机按钮”:

2. 选择需要安装的系统镜像文件(以下开始没有提及的位置都可以直接按“确定”或“下一步”)

3. 确定安装名称及虚拟机安装位置(虚拟机名称会在安装后显示在左侧信息栏。安装位置选择尽量不要在C盘,且目标盘空间需要足够大。)(没有提到的操作可以直接按“确定”或“下一步”)

4. 磁盘大小确定(由于在hadoop中运行的一般都是超大型文件,因此尽量在第一次安装虚拟机时就将磁盘设置足够大,这里我设置80G,且设置为单个文件。是因为可能后续操作中一个文件就有几十G,如果分区可能无法装入。注意:一旦后续空间不足,追加磁盘操作比较复杂且很容易出错误)(没有提到的操作可以直接按“确定”或“下一步”)

5.点击“完成”,就相当于你有了一台电脑。然后开始安装电脑的系统——CentOS。

6.上一步点击“完成”后,虚拟机开启,安装系统。点击虚拟机界面进入操作,“↑”和“↓”用于选择,这里选择“Install CentOS 7”。

7. 选择语言,选择自己喜欢的。。。我就选汉语了。这一步就不放图片了。

8. 语言选择后,自动进入“安装信息摘要”界面,需要选择安装模式,默认安装只有命令行模式,没有图形化界面。这里点击“安装选择”按钮,点开后先在左侧栏选择“GNOME桌面”,右侧所有条目打勾。(其他标有感叹号的打开点击确定就可以了)

9. 点击开始安装后,开始安装系统。此时可以设置linux系统的root用户密码(root用户即系统的超级管理员),点击感叹号那个图标开始设置。

打开密码设置页面如下,注意这个密码需要牢记(记为密码A)。root账户密码设置完毕后。点击完成等待系统安装完毕即可。返回安装界面另一个感叹号会自动消失。不用再设置。

10. 系统安装完成后配置

系统安装完后会需

### 配置 Hadoop 伪分布式环境于 CentOS 8 #### 准备工作 为了在 CentOS 8 上成功配置 Hadoop伪分布式模式,需先完成必要的准备工作。这包括但不限于更新系统软件包至最新版本以及关闭防火墙和服务隔离工具(如 SELinux),以减少不必要的网络通信障碍。 #### 安装 Java 环境 由于 Hadoop 是基于 Java 开发的应用程序,在开始之前要确认已经正确安装了 JDK 并设置了 JAVA_HOME 环境变量。可以通过 `java -version` 命令来检验当前系统的 Java 版本是否满足需求[^1]。 #### 下载并解压 Hadoop 获取适合 Linux x64 架构的稳定版 Hadoop 发行包,并将其放置到 `/usr/local/` 路径下。具体操作可以参照如下命令: ```bash sudo wget http://apache.mirrors.lug.be/hadoop/common/stable/hadoop-2.7.3.tar.gz -P /tmp/ sudo tar -zxvf /tmp/hadoop-2.7.3.tar.gz -C /usr/local/ ``` #### 修改配置文件 编辑位于 `/usr/local/hadoop/etc/hadoop/` 文件夹内的几个重要 XML 和 SH 脚本: 对于 **core-site.xml** 及 **hdfs-site.xml** 中提到的数据存储路径无需预先建立;当启动 NameNode 或 DataNode 进程时将会自动生成相应目录结构。而针对 **hadoop-env.sh** 则需要指定 JVM 参数及其他环境设置。 ```xml <!-- core-site.xml --> <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> <!-- hdfs-site.xml --> <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> ``` ```sh # hadoop-env.sh export JAVA_HOME=/path/to/java/home ``` #### 初始化 HDFS 文件系统 通过运行下面这条指令初始化 Hadoop 分布式文件系统 (HDFS),这是首次部署过程中必不可少的一个环节。 ```bash $HADOOP_PREFIX/bin/hdfs namenode -format ``` #### 启动服务进程 利用所提供的 shell 工具依次开启各个组件的服务实例,比如 NameNode, DataNode 等等。 ```bash start-dfs.sh jps # 查看Java进程中是否有NameNode和DataNode ``` #### 测试集群状态 最后一步就是验证整个平台能否正常运作。输入 `hadoop version` 来查看已加载的核心库信息及其编译详情,以此证明本地单节点集群构建完毕并且处于可用状态[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值