第一课 大数据技术之Hadoop3.x环境搭建

本文详细介绍了如何搭建Hadoop3.x的完全分布式环境,从虚拟机准备、Hadoop目录结构到Hadoop的运行模式,再到集群配置、启动测试、历史服务器配置和日志聚集,提供了一套完整的步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一课 大数据技术之Hadoop3.x环境搭建

第一节 Hadoop搭建介绍

1.1 虚拟机准备

  1. 安装模板虚拟机,主机名称hadoop100、内存4G、硬盘50G。
# 工具安装
yum install -y net-tools vim
# 在企业开发时,通常单个服务器的防火墙时关闭的。公司整体对外会设置非常安全的防火墙
systemctl stop firewalld
systemctl disable firewalld.service
# 设置hostname
hostnamectl set-hostname hadoop100
# 第一: 配置静态ip 防止动态改变
vim /etc/sysconfig/network-scripts/ifcfg-ens33
# 修改下面选项
DEVICE=ens33
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
NAME="ens33"
IPADDR=192.168.44.136
PREFIX=24
GATEWAY=192.168.44.2
DNS1=192.168.44.2

# 创建atguigu用户,并修改atguigu用户的密码
useradd atguigu
passwd atguigu
# 配置atguigu用户具有root权限,方便后期加sudo执行root权限的命令
vim /etc/sudoers
# 修改/etc/sudoers文件,在%wheel这行下面添加一行,如下所示:
## Allow root to run any commands anywhere
root    ALL=(ALL)     ALL

## Allows people in group wheel to run all commands
%wheel  ALL=(ALL)       ALL
atguigu   ALL=(ALL)     NOPASSWD:ALL
# 注意:atguigu这一行不要直接放到root行下面,因为所有用户都属于wheel组,你先配置了atguigu具有免密功能,但是程序执行到%wheel行时,该功能又被覆盖回需要密码。所以atguigu要放到%wheel这行下面。
# 在/opt目录下创建文件夹,并修改所属主和所属组
mkdir /opt/module
mkdir /opt/software
# 修改module、software文件夹的所有者和所属组均为atguigu用户 
chown atguigu:atguigu /opt/module 
chown atguigu:atguigu /opt/software

# vim /etc/hosts 添加一些主机映射
cat >> /etc/hosts <<EOF
192.168.44.136 hadoop100
192.168.44.137 hadoop101
192.168.44.138 hadoop102
192.168.44.139 hadoop103
EOF

# 安装jdk和Hadoop
mkdir -p /opt/module/
tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/
vim /etc/profile.d/my_env.sh
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

# 关闭防火墙
systemctl stop firewalld
systemctl disable firewalld

# 生效测试 java -version
source /etc/profile
java -version
hadoop version
# hadoop的虚拟机模板到此结束 做个镜像快照

1.2 Hadoop目录结构

  1. 查看Hadoop目录结构
  2. 重要目录
    • bin目录:存放对Hadoop相关服务(hdfs,yarn,mapred)进行操作的脚本
    • etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
    • lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
    • sbin目录:存放启动或停止Hadoop相关服务的脚本
    • share目录:存放Hadoop的依赖jar包、文档、和官方案例
cd /opt/module/hadoop-3.1.3
ll
总用量 52
drwxr-xr-x. 2 atguigu atguigu  4096 522 2017 bin
drwxr-xr-x. 3 atguigu atguigu  4096 522 2017 etc
drwxr-xr-x. 2 atguigu atguigu  4096 522 2017 include
drwxr-xr-x. 3 atguigu atguigu  4096 522 2017 lib
drwxr-xr-x. 2 atguigu atguigu  4096 522 2017 libexec
-rw-r--r--. 1 atguigu atguigu 15429 522 2017 LICENSE.txt
-rw-r--r--. 1 atguigu atguigu   101 522 2017 NOTICE.txt
-rw-r--r--. 1 atguigu atguigu  1366 522 2017 README.txt
drwxr-xr-x. 2 atguigu atguigu  4096 522 2017 sbin
drwxr-xr-x. 4 atguigu atguigu  4096 522 2017 share

1.3 scp和rsync命令

  1. scp(secure copy)安全拷贝, scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)。
# 命令-r递归     要拷贝的文件路径/名称   目的地用户@主机:目的地路径/名称 
scp -r $pdir/$fname $user@$host:$pdir/$fname
  1. rsync远程同步工具, rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
# 服务端 yum -y install rsync xinetd
# 客户端 yum -y install rsync
# 命令   选项参数   要拷贝的文件路径/名称   目的地用户@主机:目的地路径/名称
# 选项参数说明 -a	归档拷贝 -v	显示复制过程
rsync -av $pdir/$fname $user@$host:$pdir/$fname
  1. rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。

第二节 Hadoop运行模式

2.1 Hadoop运行模式介绍

  1. Hadoop官方网站:http://hadoop.apache.org/
  2. Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。
    • 本地模式:单机运行,只是用来演示一下官方案例。数据存储在liunx本地,生产环境不用。
    • 伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,数据存储在HDFS, 生产环境不用。
    • 完全分布式模式:多台服务器组成分布式环境。数据存储在HDFS/多台服务器工作, 生产环境使用。
      在这里插入图片描述

2.2 Hadoop本地运行模式

# 创建在hadoop-3.1.3文件下面创建一个wcinput文件夹
mkdir wcinput
# 在wcinput文件下创建一个word.txt文件
cd wcinput
# 编辑word.txt文件
vim word.txt
# 在文件中输入如下内容
hadoop yarn
hadoop mapreduce
atguigu
atguigu

# 回到Hadoop目录/opt/module/hadoop-3.1.3
# 执行程序 输出文件夹不能存在 会报错
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput ./wcoutput
# 查看结果
cat wcoutput/part-r-00000
# 看到如下结果:
atguigu 2
hadoop  2
mapreduce       1
yarn    1

第三节 Hadoop完全分布式环境搭建

3.1 Hadoop完全分布式模式机器准备

  1. 准备3台客户机(关闭防火墙、静态IP、主机名称)
  2. 安装JDK
  3. 配置环境变量
  4. 安装Hadoop
  5. 配置环境变量
  6. 配置集群
  7. 单点启动
  8. 配置ssh
  9. 群起并测试集群

3.2 配置机器ssh免密登陆

  1. 免密登录原理
    在这里插入图片描述
  2. 生成公钥和私钥(私钥不能发给任何人)
# 然后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)
ssh-keygen -t rsa
cd ~/.ssh
  1. 将公钥拷贝到要免密登录的目标机器上
ssh-copy-id hadoop101
ssh-copy-id hadoop102
ssh-copy-id hadoop103
  1. .ssh文件夹下(~/.ssh)的文件功能解释
    | 文件 | 作用 |
    | --------------- | --------------------------------------- |
    | id_rsa | 生成的私钥 |
    | id_rsa
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值