HADOOP大数据分布式环境下的安装配置教程

最新推荐文章于 2024-10-10 23:44:41 发布

qq_33948660

最新推荐文章于 2024-10-10 23:44:41 发布

阅读量214

点赞数

CC 4.0 BY-SA版权

文章标签： hadoop 大数据

本文链接：https://blog.youkuaiyun.com/qq_33948660/article/details/103085595

这篇教程详细介绍了在HADOOP环境下，如何进行大数据分布式系统的安装配置，包括软件下载安装、修改主机名与IP、配置JAVA环境变量、SSH免密互登设置以及Hadoop的安装、文件配置和启动过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HADOOP大数据分布式环境下的安装配置教程

一、软件下载安装
1、yum -y install wget
2、yum -y install java
（java -verbose可以显示java的安装路径,java -version可以显示的是java的版本 /usr/lib/jvm/java-1.8.0-openjdk-1.8.0.232.b09-0.el7_7.x86_64/jre）
3、wget install http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

服务器文件互拷贝命令：scp ./bin/* root@192.168.0.93:/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.232.b09-0.el7_7.x86_64/jre/bin

二、修改用户名以及对应的IP

vi /etc/hostname

vi /etc/hosts

三、JAVA的环境变量修改：
1、修改/etc/profile这个文件，修改的方法很多，可以用远程工具下载该文件到本地系统，修改后，在上载上去，也可以直接使用vim命令对该文件进行修改（这里不打算详细展开讲vim命令），不管用什么方法只要在/etc/profile文件中增加如下配置即可，增加的内容是：
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.232.b09-0.el7_7.x86_64/jre
export CLASSPATH= $: C L A S S P A T H :$ JAVA_HOME/lib/
export PATH= $P A T H :$ JAVA_HOME/bin

四、进行SSH免密互登设置
分别在92 93 94服务器的/root/.ssh目录下输入命令：ssh-keygen -t rsa
在92服务器上输入如下命令
ssh-copy-id -i ~/.ssh/id_rsa.pub 192.168.0.93
ssh-copy-id -i ~/.ssh/id_rsa.pub 192.168.0.94，
然后将id_rsa.pub里面的文件内容拷贝到authorized_keys里面，解决自己免登录自己服务器的密钥问题，类似问题都可以这样解决。
在93服务器上输入如下命令
ssh-copy-id -i ~/.ssh/id_rsa.pub 192.168.0.92
ssh-copy-id -i ~/.ssh/id_rsa.pub 192.168.0.94
在94服务器上输入如下命令
ssh-copy-id -i ~/.ssh/id_rsa.pub 192.168.0.92
ssh-copy-id -i ~/.ssh/id_rsa.pub 192.168.0.93

五、hadoop的安装
1、创建opt目录
mkdir opt
2、复制hadoop-3.2.1.tar.gz到opt目录下面,并在opt目录下解压。
cp hadoop-3.2.1.tar.gz ./opt
tar -xzvf hadoop-3.2.1.tar.gz
3、在/root目录下新建几个目录，复制粘贴执行下面的命令：
mkdir /root/hadoop
mkdir /root/hadoop/tmp
mkdir /root/hadoop/var
mkdir /root/hadoop/dfs
mkdir /root/hadoop/dfs/name
mkdir /root/hadoop/dfs/data

六、hadoop的文件的环境配置。

/opt/hadoop/hadoop-3.2.0/etc/hadoop/

1、修改core-site.xml
在节点内加入配置:

hadoop.tmp.dir
/root/hadoop/tmp
Abase for other temporary directories.

fs.default.name
hdfs://xhl01:9000

2、修改hadoop-env.sh
将export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.232.b09-0.el7_7.x86_64/jre
说明：修改为自己的JDK路径。此处可以与系统JAVA环境一致，也可以单独配置。

3、修改hdfs-site.xml
在节点内加入配置:

dfs.name.dir
/root/hadoop/dfs/name
Path on the local filesystem where theNameNode stores the namespace and transactions logs persistently.

dfs.data.dir
/root/hadoop/dfs/data
Comma separated list of paths on the localfilesystem of a DataNode where it should store its blocks.

dfs.replication
2

dfs.permissions
false
need not permissions

说明：dfs.permissions配置为false后，可以允许不要检查权限就生成dfs上的文件，方便倒是方便了，但是你需要防止误删除，请将它设置为true，或者直接将该property节点删除，因为默认就是true。

4、新建并且修改mapred-site.xml
在该版本中，有一个名为mapred-site.xml的文件，复制该文件，后改名mapred-site.xml.template，命令是：
cp mapred-site.xml mapred-site.xml.template
修改这个新建的mapred-site.xml文件，在节点内加入配置:

mapred.job.tracker
xhl01:49001

mapred.local.dir
/root/hadoop/var

mapreduce.framework.name
yarn

注意： server1:49001
5、修改worker文件（hadoop3.2版本没有slaves文件,之前版本修改slaves文件）
修改worker文件，将里面的localhost删除，添加如下内容：
server2
server3
第二台虚拟机添加如下内容：
server1
server3

6、修改yarn-site.xml文件
在节点内加入配置(注意了，内存根据机器配置越大越好，我这里只配2个G是因为虚拟机安装测试):

yarn.resourcemanager.hostname
xhl01

The address of the applications manager interface in the RM.
yarn.resourcemanager.address
${yarn.resourcemanager.hostname}:8032</value> </property> <property> <description>The address of the scheduler interface.</description> <name>yarn.resourcemanager.scheduler.address</name> <value>$