hadoop搭建教程

    最近准备学习一些大数据的入门知识,当然是从搭建环境开始了,下面我把我搭建hadoop的步骤以及遇到的一些问题写在下边。

    搭建前的准备:

    centos7环境

    jdk环境

    ssh免密登录

    用户组

    准备好以上几步之后就可以搭建hadoop了。

    安装centos的步骤就不在这里赘述了。

    jdk环境如果centos操作系统自带的话那么找到JAVA_HOME很难,至少我试了将java命令的路径设为JAVA_HOME没有通过,which java设为JAVA_HOME也没有通过,好吧,可能是我知识不到家,我只能采用最简便粗暴的方法,将centos自带的java卸载,并且在网上下载新的jdk包。我下载的是jdk8的tar.gz包,安装java环境还是很简单的,只需要下载一个jdk包,然后将这个包的解压路径写到环境变量中java环境就算安装好了。

具体步骤如下:

  1. sudo yum remove java java........  #后边的省略号可以使用tab键来不全,我也记不得全部名称
  2. tar -zxvf jdk-8u161-linux-x64.tar.gz
  3. vim .bash_profile
  4. export JAVA_HOME=/home/hadoop/jdk1.8.0_161 
  5. export PATH=$PATH:$JAVA_HOME/bin       #在.bash_profile中添加4,5两行的内容,并保存退出
  6. source .bash_profile
  7. java

    安装好java环境之后我们再来配置ssh的免密登录,一般centos都自带了ssh,配置免密登录的步骤如下

    首先修改ssh的配置文件,让其支持免密登录,ssh的配置文件路径是/etc/ssh/sshd_config

    sudo vim /etc/ssh/sshd_config

    做如下修改(如果配置文件中没有这几项内容,就按照下图把他们加上),其中黄色框圈住的内容就是我们要写入到配置文件中的内容。

  

    修改过配置文件之后,保存并退出,在终端输入:

    ssh-keygen -t dsa 

    一路回车即可。然后进入根目录下的.ssh目录下,执行如下命令:

    cat id_dsa.pub >> authorized_keys

    chmod 600 600 ~/.ssh/authorized_keys

    chmod 700 ~.ssh

最后重启ssh服务即可,在centos7中有两种方法如下:

    service sshd restart

    or  

    systemctl restart sshd.service

    接下来我们可以试试是否成功设置了免密登录,在终端输入ssh localhost如果没有让我们输入密码,我们就设置成功,如果还是让我们输入密码,保证前边的步骤都正确的话,可能的原因就是selinux的问题。

    首先我们来确定一下SELinux安全子系统的状态,可以使用 sestatus -v命令来检测,如下图我的是已经关闭了的,他有三种状态“enforcing”,“disabled”,“permissive”


如果没有关闭进入/etc/sysconfig/selinux关闭即可,如下图所示:


    配置好ssh免密登录之后,进行用户组的设置

    groupadd Hadoop

    gpasswd -a hadoop Hadoop

    至此,我们的准备工作已经做完了,下面我们开始搭建hadoop环境了。

    首先我们下载一个hadoop的tar包,并解压到/home/hadoop目录下。下载地址:点击打开链接,我们选择2.7.5版本。

    一、环境变量的配置

  1. vim ~/.bash_profile
  2. export HADOOP_HOME=~/hadoop-2.7.5
  3. export HADOOP_CONF_DIR=~/hadoop-2.7.5/etc/hadoop
  4. export YARN_CONF_DIR=~/hadoop-2.7.5/etc/hadoop
  5. export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin:$PATH
  6. source .bash_profile    # 保存退出之后使环境变量生效
  7. hadoop version       # 检查是否配置好了环境变量

    二、在hadoop-2.7.5文件夹下创建几个hadoop专用的文件夹

  1. mkdir -p tmp
  2. mkdir -p hdfs/data
  3. mkdir -p hdfs/name
  4. mkdir -p mapred/local
  5. mkdir -p mapred/system
  6. chown -R hadoop:Hadoop ~/hadoop-2.7.5

     三、配置hadoop

    主要是对一下几个配置文件进行配置(etc/hadoop)

  1. hadoop-env.sh
  2. yarn-env.sh
  3. core-site.xml
  4. hdfs-site.xml
  5. mapred-site.xml
  6. yarn-site.xml

    其中1-2是添加JAVA_HOME,2-6都是在 configuration中做一些配置

vim hadoop-env.sh


    vim yarn-env.sh


    vim core-site.xml,在这个配置文件中有一个坑,其中fs.default.name有的地方是fs.default.FS,我在配置的时候使用的是FS,但是最后启动的时候有异常,所以查完资料之后将FS换成了name,就正常启动了。


    vim hdfs-site.xml


    vim mapred-site.xml ,在2.7.5中没有改文件,可以复制mapred-site.xml.template


    vim yarn-site.xml


至此所有配置文件已经完成

四、启动hadoop

    格式化文件系统,本地模式不需要格式化文件系统,这是因为本地模式会启用操作系统本身的文件系统,这里格式化是指创建一个面向hadoop的分布式文件系统 —— HDFS,而不是格式化用户的额硬盘,所以不用担心

    hdfs namenode -format    #注意终端让输入Y/N的时候,请输入大写的Y

如下图中黄框中Exiting with status 0即说明格式化成功,否则请检查配置文件。


    启动hadoop

  1. start-dfs.sh
  2. start-yarn.sh
  3. mr-jobhistory-daemon.sh start historyserver
  4. jps

输入jps,如果如下图所示所有进程都起来了,说明hadoop正常启动。


启动成功之后再浏览器中输入localhost:50070来验证,如下图所示:


关闭hadoop

  1. mr-jobhistory-daemon.sh stop historyserver
  2. stop-yarn.sh
  3. stop-dfs.sh
如果想IP访问,就把配置中的localhost换成IP,并且关闭防火墙,关闭防火墙,关闭防火墙
### 回答1: Hadoop是一个分布式存储和分布式计算框架。要在Linux系统上搭建Hadoop,需要以下步骤: 1. 安装Java:Hadoop需要Java的运行环境,因此需要在Linux系统上安装Java。 2. 下载Hadoop:在官网上下载Hadoop的最新版本,或者使用wget命令下载。 3. 配置Hadoop:需要配置Hadoop的环境变量、配置文件等。 4. 启动Hadoop:使用start-dfs.shstart-yarn.sh命令启动Hadoop。 5. 测试Hadoop:使用hadoop fs命令来检查Hadoop是否安装成功。 6. 安装hadoop ecosystem的工具,如hive,spark,hbase 7. 由于Hadoop是一个分布式系统,所以需要在多台机器上部署, 配置完成后需要设置好每台节点的角色,主节点,从节点等。 8. 根据业务需求构建好数据管理和处理流程。 其中第7步是核心步骤,需要根据实际情况进行配置,需要熟悉hadoop和相关工具的配置。 ### 回答2: Hadoop是基于分布式计算模型的开源框架,用于处理大规模数据集。如果您想在Linux上搭建Hadoop,以下是一些步骤可以为您提供指导: 1. 安装Java: Hadoop是使用Java编写的,所以需要安装最新版本的Java。可以从Oracle官网上下载Java并按照说明安装。 2. 下载HadoopHadoop的下载可在Apache官方网站上获取。下载后,解压缩文件并将其移动到需要安装的位置。 3. 配置Hadoop环境变量:将Hadoop的安装路径添加到系统环境变量中,以便在终端中访问Hadoop。 4. 修改Hadoop配置文件:修改Hadoop的配置文件以适应自己的环境。首先要修改hadoop-env.sh,该文件包含Java和Hadoop等路径。然后修改core-site.xml,该文件是Hadoop的配置文件,配置文件中包含的是NameNode和DataNode,它们是管理分布式文件系统的核心。接下来,我们还要修改hdfs-site.xml,这个文件是HDFS的配置文件。 5. 启动Hadoop集群:在启动Hadoop之前,需要在NameNode节点上格式化HDFS命令为:hadoop namenode –format。然后使用以下命令启动Hadoop: start-all.sh 。这将启动用于管理Hadoop集群的所有守护进程。 6. 测试Hadoop集群:使用以下命令启动Hadoop shell: start-dfs.sh,用语检查Hadoop是否正在运行。接下来,将数据上传到HDFShadoop fs –put /path/to/local/file /path/to/HDFS。最后,检查数据是否成功传输:hadoop fs –ls /path/to/HDFS。 此外,还有其他的配置可以优化Hadoop的性能和可靠性。总的来说,搭建Hadoop需要具备一定的Linux和Hadoop基础知识。如果您对Linux和Hadoop不是很熟悉,可以先学习一些基础知识,从而更好地理解配置过程。 ### 回答3: Linux Hadoop搭建教程 Hadoop是Apache软件基金会开发的一个开源分布式计算平台,用于大数据存储和处理。它旨在解决受限于单个计算机能力的数据处理问题,结合多台计算机完成任务,具有高可靠性、高扩展性的优势。在Linux系统中,Hadoop搭建需要以下步骤。 1. 准备环境 首先需要安装Java环境,在终端命令输入“java -version”可查看Java版本。Hadoop官方建议使用OpenJDK 7以上的版本。可运行以下命令安装OpenJDK 8: > sudo apt-get update > sudo apt-get install openjdk-8-jdk 2. 下载和安装Hadoop 官网下载最新的Hadoop发行版。使用命令解压后放置在指定的路径,例如/opt/hadoop。 > tar xzf hadoop-3.2.1.tar.gz > sudo mv hadoop-3.2.1 /opt/ > sudo chown -R hduser:hadoop /opt/hadoop-3.2.1 其中hduser为Hadoop的用户,需在Linux系统上创建。 3. 配置Hadoop环境变量 编辑“/etc/profile”文件,加入以下配置: > export HADOOP_INSTALL=/opt/hadoop-3.2.1 > export HADOOP_HOME=$HADOOP_INSTALL > export HADOOP_MAPRED_HOME=$HADOOP_HOME > export HADOOP_COMMON_HOME=$HADOOP_HOME > export HADOOP_HDFS_HOME=$HADOOP_HOME > export YARN_HOME=$HADOOP_HOME > export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop > export YARN_CONF_DIR=$HADOOP_CONF_DIR > export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin 保存并退出,执行以下命令更新环境变量: > source /etc/profile 4. 配置Hadoop 在“/opt/hadoop-3.2.1/etc/hadoop/”路径下有多个配置文件,需要根据需要调整。其中,“hadoop-env.sh”文件设置Java环境变量: > export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 > export HADOOP_HOME=/opt/hadoop-3.2.1 “core-site.xml”文件配置文件系统使用的端口和路径: hadoop.tmp.dir=${hadoop.tmp.dir}/hadoop-${user.name} fs.default.name=hdfs://localhost:9000 “hdfs-site.xml”配置HDFS的路径和副本数: dfs.replication=1 dfs.namenode.name.dir=file:/opt/hadoop-3.2.1/data/dfs/namenode dfs.datanode.data.dir=file:/opt/hadoop-3.2.1/data/dfs/datanode “mapred-site.xml”配置MapReduce的参数: mapred.job.tracker=localhost:54311 “yarn-site.xml”配置YARN的参数: yarn.nodemanager.aux-services=mapreduce_shuffle yarn.nodemanager.aux-services.mapreduce_shuffle.class=org.apache.hadoop.mapred.ShuffleHandler 5. 启动Hadoop 运行以下命令启动HDFS和YARN: > /opt/hadoop-3.2.1/sbin/start-dfs.sh > /opt/hadoop-3.2.1/sbin/start-yarn.sh 在浏览器中输入“http://localhost:9870/”可查看Hadoop的运行情况。若需要停止,可运行以下命令: > /opt/hadoop-3.2.1/sbin/stop-dfs.sh > /opt/hadoop-3.2.1/sbin/stop-yarn.sh 以上就是在Linux系统上搭建Hadoop的基本步骤。需要注意的是,Hadoop需要在多台机器上分布式运行,更详细的搭建流程可以参考官方文档。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值