Java 大数据【Hadoop 安装入门】

本文详细介绍Hadoop集群的搭建步骤,包括用户及权限设置、SSH免密登录配置、Java环境安装、Hadoop软件安装与配置,以及伪分布式模式下的HDFS与YARN的启动与验证过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、开始
1.创建用户及权限
$ adduser hadoop  # 添加用户名
$ passwd hadoop # 添加密码
$ su - hadoop # 切换用户
$ sudo ls –la /root # 确认成功
2.添加权限

有时会提示没有权限,切换到 root

$ visudo

找到 root ALL = (ALL) ALL
在98行,在键盘上输入:98,然后按回车就能跳到,然后添加箭头所指的内容,空格为Tab,然后 :wq 退出。
在这里插入图片描述

3.安装 ssh

如果有 client 和 server 表示不需要安装

$ rpm -qa | grep ssh

在这里插入图片描述
如果需要安装,安装命令

$ sudo yum install openssh-clients
$ sudo yum install openssh-server

查看是否可用

$ ssh localhost

第一次登陆需要密码

$ exit                           # 退出刚才的 ssh localhost
$ cd ~/.ssh/                     # 若没有该目录,请先执行一次ssh localhost
$ ssh-keygen -t rsa              # 会有提示,都按回车就可以
$ cat id_rsa.pub >> authorized_keys  # 加入授权
$ chmod 600 ./authorized_keys    # 修改文件权限
4.安装 Java 环境

CentOS 安装 JDK

5.安装 Hadoop

http://mirror.bit.edu.cn/apache/hadoop/common/

注意不要下载错了,下载完成后,可以复制到 CentOS 服务器,然后解压。
在这里插入图片描述

$ sudo tar -zxf ~/下载/hadoop-2.6.5.tar.gz -C /usr/local
$ sudo mv ./hadoop-2.6.5/ ./hadoop # 将文件夹名改为 hadoop
$ sudo chown -R hadoop:hadoop ./hadoop # 修改文件权限	
$ cd /usr/local/hadoop

查看版本

$ ./bin/hadoop version
6. Hadoop 伪分布式配置

配置文件目录,

vim /usr/local/hadoop/etc/hadoop/core-site.xml 

修改配置文件 core-site.xml

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

修改配置文件 hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>

配置完成后,执行 NameNode 的格式化
在 hadoop 解压目录下执行

$ ./bin/hdfs namenode -format

开启 NaneNode 和 DataNode 守护进程

$ ./sbin/start-dfs.sh

伪分布式读取的则是 HDFS 上的数据。要使用 HDFS,首先需要在 HDFS 中创建用户目录

$ ./bin/hdfs dfs -mkdir -p /user/hadoop

接着将 ./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中,即将 /usr/local/hadoop/etc/hadoop 复制到分布式文件系统中的 /user/hadoop/input 中。我们使用的是 hadoop 用户,并且已创建相应的用户目录 /user/hadoop ,因此在命令中就可以使用相对路径如 input,其对应的绝对路径就是 /user/hadoop/input:

$ ./bin/hdfs dfs -mkdir input
$ ./bin/hdfs dfs -put ./etc/hadoop/*.xml input

查看 HDFS 中的文件列表

$ ./bin/hdfs dfs -ls input
7. 启动 YARN

YARN 是从 MapReduce 中分离出来的,负责资源管理与任务调度。YARN 运行 于 MapReduce 之上,提供了高可用性、高扩展性。

首先修改配置文件 mapred-site.xml,这边需要先进行重命名:

$ mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml
$ vim ./etc/hadoop/mapred-site.xml
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

修改配置文件 yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
        </property>
</configuration>

启动YARN,stop 为停止

$ ./sbin/start-yarn.sh

#开启历史服务器,才能在Web中查看任务运行情况

./sbin/mr-jobhistory-daemon.sh start historyserver  

开启后通过 jps 查看,可以看到多了 NodeManager 和 ResourceManager 两个后台进程,如下图所示。
在这里插入图片描述

访问一下地址可查看任务运行情况

http://123.56.***:8088/cluster
http://123.56.***:50070

如果没有响应,则可以查看一下端口,看有没有启动,如果启动了,又访问不到,可能是防火墙问题,看看阿里云端口有没有开启。

netstat  -anp | grep 50070

在这里插入图片描述
在这里插入图片描述

参考资料

如何安装 : https://blog.youkuaiyun.com/jimuka_liu/article/details/82784313
JAVA_HOME 问题 : https://www.cnblogs.com/codeOfLife/p/5940642.

关于

我的 Github:Github

推荐阅读
史上最全,最完美的 JAVA 技术体系思维导图总结,没有之一!

大数据Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。想要从入门到精通大数据Hadoop,需要以下几个步骤。 首先,了解Hadoop的基本概念和架构。HadoopHadoop分布式文件系统(HDFS)和Hadoop分布式计算框架(MapReduce)组成。HDFS用于存储大规模数据集,而MapReduce用于分布式计算。了解这些基本概念对于理解Hadoop的运行方式至关重要。 其次,学习Hadoop安装和配置。Hadoop安装可以通过官方网站提供的二进制文件进行,同时需要配置相关环境变量和属性文件。熟悉Hadoop的配置能够更好地适应不同的需求和环境。 第三,学习Hadoop的编程模型和API。Hadoop使用Java编程语言来实现分布式计算任务。了解Hadoop编程模型和API可以帮助我们编写MapReduce程序,实现数据的分布式处理和并行计算。 第四,了解Hadoop生态系统中的其他组件。Hadoop生态系统包括HBase、Hive、Pig、Spark等多个组件,它们可以与Hadoop一起使用,提供更强大的数据处理和分析能力。了解这些组件的基本概念和用法,能够更好地解决实际的数据处理问题。 最后,通过实践项目来提升技能。只有通过实践,才能真正掌握Hadoop的使用和应用。可以通过解决实际的数据问题,运行和调优MapReduce程序,深入理解Hadoop的工作原理和性能优化。 总结起来,要想从入门到精通大数据Hadoop,需要了解基本概念和架构,学习安装配置,掌握编程模型和API,了解Hadoop生态系统中的其他组件,并通过实践项目来提升技能。这些步骤将帮助我们更好地理解和运用Hadoop,实现大数据的存储和处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

星尘Pro

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值