[Java大数据入门]Hadoop伪分布式安装与配置_伪分布式hadoop集群搭建过程java安装环境-优快云博客

本文介绍了Hadoop的伪分布式安装过程，适用于个人学习。内容包括下载安装2.6.0-cdh5.7.0版本，配置核心及HDFS参数，设置SSH免密登录，启动Hadoop并访问web界面，为后续Hbase安装奠定基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hadoop是由Apache基金会所开发的分布式系统基础架构。它的核心概念主要有两个：

HDFS分布式文件系统，为海量数据提供存储
MapReduce计算框架，为海量数据提供了计算途径

现在Hadoop已经成为了一种生态，并且其底层的HDFS为许多数据库的底层实现，例如Hbase，就是DataBase on Hadoop，也就是基于Hadoop的数据库。由于后面数据的存储需要使用Hbase以及OpenTsdb，因此必须首先安装Hadoop。这篇文章不会讲解Hadoop的各种概念，只会讲解Hadoop的安装方式。如果需要了解Hadoop的基础概念，可以参考这篇博文：Hadoop 系列（一）基本概念。

一、下载与安装

版本：2.6.0-cdh5.7.0

安装包：hadoop-2.6.0-cdh5.7.0.tar.gz或者直接在官网上下载，地址为：

wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz

下载完安装包后，开始进行安装

## 下载hadoop安装包
wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz

## 解压
tar -zvxf hadoop-2.6.0-cdh5.7.0.tar.gz

## 设置软链接
ln -s /Users/liumenghao/bigData/hadoop-2.6.0-cdh5.7.0 /opt/hadoop

## 设置环境变量，在文件中添加下述内容
vim ~/.zshrc
#hadoop
export HADOOP_HOME=/opt/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

二、配置伪分布式运行环境（单机）

由于是个人学习使用，并没有搭建集群模式，配置的伪分布式运行环境

## 进入配置文件目录
cd /opt/hadoop/etc/hadoop/

## 修改jdk目录
vim hadoop-env.sh
export JAVA_HOME=$JAVA_HOME

## 修改core-site.xml
vim core-site.xml

## 修改hdfs-site.xml
vim hdfs-site.xml

core-site.xml

<configuration>
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
</property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>/Users/liumenghao/bigData/temp/</value>>
</property>
</configuration>

配置参数说明：

配置参数	说明
fs.defaultFS	Hadoop访问目录节点NameNode
hadoop.tmp.dir	Hadoop的临时存放目录

hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

配置参数说明：

配置参数	说明
dfs.replication	数据在hdfs中的备份数量（默认是3份）

三、启动Hadoop

在启动之前首先需要设置ssh免密登陆localhost，Mac电脑设置方式如下：

## 检查是否可以免密登陆
ssh localhost

## 如果不可以，则使用如下命令进行设置（仅限Mac系统）
ssh-keygen -t rsa 
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod og-wx ~/.ssh/authorized_keys
chmod 750 $HOME

设置完成后，启动Hadoop

## 格式化namenode
cd /opt/hadoop/bin/
./hdfs namenode fomat

## 启动hdfs
cd /opt/hadoop/sbin/
./start-dfs.sh 由于已经配置环境变量，因此可以在任何目录直接执行start-dfs.sh

## 验证hadoop启动成功
jps
11776 DataNode
11702 NameNode
11877 SecondaryNameNode