Hadoop(2)安装(本地、伪分布、分布式模式)

本文详细介绍了Hadoop三种模式的搭建过程。本地模式需配置操作系统、下载JDK和Hadoop软件包并安装配置;伪分布搭建要在master节点进行Hadoop配置、格式化hdfs、启动相关进程等;分布式模式则需停止伪分布集群、删除数据、修改配置文件、分发软件并启动集群。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本地模式

环境介绍

一共三台测试机

master   192.168.4.91

slave1   192.168.4.45

slave2   192.168.4.96

 

操作系统配置

1、Centos7操作系统

2、防火墙,selinux都关闭(在学习的时候,基本都是关闭防火墙,生产环境,防火墙都是打开的,不仅有Linux自带的主机防火墙,还有其他的物理防火墙)

***  以下操作需要root权限  ***

(1) Centos7关闭防火墙命令
   #systemctl stop firewalld 
   #systemctl disable firewalld

     Centos6关闭防火墙
     #/etc/init.d/iptables stop
     #chkconfig  iptables off

(2) 关闭Selinux
   #sed -i 's/enforcing/disabled/g' /etc/selinux/config 通常情况下,设置完selinux需要重启操作系统,如果不想重启,可以临时关闭selinux。
   #setenforce 0   表示临时关闭selinux

(3) 修改操作系统ulimit的限制(可以使用ulimit -a参数看当前系统的ulimit限制值)
   #echo "*        -      nofile     65535" >>  /etc/security/limits.conf  修改最大文件数。
    #echo "*         -    nproc     65535" >> /etc/security/limits.d/20-nproc.conf   修改最大进程数
    注意:修改完以后,如果想要生效,需要重新打开会话。

(4)  关闭ipv6
    #echo "net.ipv6.conf.all.disable_ipv6 = 1" >> /etc/sysctl.conf
     #echo "net.ipv6.conf.default.disable_ipv6 = 1" >> /etc/sysctl.conf
     #sysctl -p  

(5)  修改/etc/hosts文件,添加主机名和ip的映射
(6)  创建管理集群的用户
  #useradd -m -d /home/hadoop hadoop
   #passwd hadoop   #修改密码
(7)   创建数据目录
      #mkdir /data/hadoop
      #chown hadoop:hadoop /data/hadoop
      #su - hadoop     #切换到hadoop用户
(8)  设置主机之间免密登录     
     #ssh-keygen  -t rsa -N '' -f ~/.ssh/id_rsa (在每台机器执行)
     拷贝分发秘钥

 

  

下载软件包

下载JDK:http://download.oracle.com/otn-pub/java/jdk/8u181-b13/96a7b8442fe848ef90c96a2fad6ed6d1/jdk-8u181-linux-x64.tar.gz

下载Hadoop:http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz

如果想下载最新版的二进制包,到官网下载。

安装配置JDK和Hadoop

1、安装JDK以及配置环境变量

$ tar zxvf jdk-8u181-linux-x64.tar.gz -C /data/hadoop
$ cd /data/hadoop
$ ln -s jdk1.8.0_181/ jdk
$ vim ~/.bashrc   文件最后追加
export JAVA_HOME=/data1/hadoop/jdk
export PATH=${JAVA_HOME}/bin:$PATH

$source /etc/profile     #让jdk生效
$java -version   #查看jdk是否生效,如果输入如下,说明配置成功。
java version "1.8.0_181"
Java(TM) SE Runtime Environment (build 1.8.0_181-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.181-b13, mixed mode)

2、安装Hadoop以及配置

解压
$ tar zxvf tar zxvf hadoop-2.9.2.tar.gz -C /data/hadoop/
$ cd /data/hadoop
$ ln -s hadoop-2.9.2/ hadoop

配置环境变量
$ vim ~/.bashrc,追加如下配置

export HADOOP_HOME=/data1/hadoop/hadoop/

export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH

$ source ~/.bashrc

3、本地模式下,各个进程运行在一台机器上,占用的jvm进程数为1,在跑MapReduce时,从本地读取文件,输出到本地文件。

(1)、在本地系统创建一个文件

#cat test.txt

11 22 33

22 33 44

44 22 11

运行hadoop自带的MapReduce程序

$ hadoop jar /data/hadoop-2.9.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount test.txt test.out

这里可以看到job ID中有local字样,说明是运行在本地模式下的。

(2)查看输出的文件。在本地模式下,输出文件是在本地。

# ll test.out

输出目录中有_SUCCESS文件说明JOB运行成功;part-r-00000是输出结果文件,r说明是reduce产生的结果,如果是m的话,则是map阶段产生的。

如果要查看具体的信息:

# cat test.out/part-r-00000

 伪分布搭建

特点:伪分布模式下,多个进程运行在不同的jvm内

以下配置只在master节点操作

Hadoop配置

1、配置hadoop-env.sh

$ cd /data/hadoop/hadoop/etc/hadoop/
$ echo "export JAVA_HOME=/data/hadoop/jdk" >> hadoop-env.sh

2、配置core-site.xml文件

在<configuration>下面添加

fs.defaultFS参数配置的是HDFS的地址。

<property>
<!-- hdfs 地址 -->
<name>fs.defaultFS</name>
<value>hdfs://master:8020</value>
</property>

<!-- 指定hadoop临时目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/data/hadoop/hadoop/tmp</value>
</property>

hadoop.tmp.dir 是hdfs文件系统产生数据所存放的临时目录

创建目录:

$ mkdir /data/hadoop/hadoop/tmp

3、配置hdfs-site.xml文件

在<configuration>下面添加

<property>
<name>dfs.replication</name>   #这里指定hdfs产生数据时备份的机器数量,由于只有一台机器,所以为1.
<value>1</value>
</property>

<property>
<name>dfs.namenode.name.dir</name>
<value>/data/hadoop/hadoop/name</value>   #指定namenode数据存放的目录
</property>

<property>
<name>dfs.datanode.data.dir</name>
<value>/data/hadoop/hadoop/data</value>  #指定datanode数据存放的目录

</property>

$ mkdir /data/hadoop/hadoop/name

$ mkdir /data/hadoop/hadoop/data

 

4、接下来格式化hdfs

$ hadoop namenode -format

格式化是对HDFS这个分布式文件系统中的DataNode进行分块,统计所有分块后的初始元数据的存储在NameNode中。

格式化后,查看core-site.xml里hadoop.tmp.dir(本例是/data/hadoop/hadoop/目录)指定的目录下是否有了dfs目录,如果有,说明格式化成功。

 $ ll /data/hadoop/hadoop/name/current,以下图片可能目录不正确,我查看的是以前安装的集群信息

 fsimage_XXX 是namenode元数据存满以后持久化到磁盘的文件。

fsimage*.md5 是校验文件,校验fsimage的完整性。

seen_txid 是hadoop的版本

$ cat VERSION

namespaceID=271252846            #namenode的唯一id
clusterID=CID-97e864b1-262d-4ce0-93d9-9dd96953ecc5          #集群id
cTime=1533545685716
storageType=NAME_NODE             #存储类型
blockpoolID=BP-1051333686-192.168.4.91-1533545685716
layoutVersion=-63

当然,NameNode和DataNode的集群ID应该一致,表明这是一个集群,datenode的id可以到/data/hadoop/hadoop/data 这个目录下查看。

♥   启动namenode、datanode、SecondaryNameNode

$ hadoop-daemon.sh start namenode

$ hadoop-daemon.sh start  datanode

$ hadoop-daemon.sh start  secondarynamenode

 

使用jps命令查看是否启动成功

$ jps

3022 NameNode

10578 Jps

2099 DateNode

12768 SecondaryNameNode

♥ hdfs分布式文件系统测试

在hdfs上创建目录:

$ hadoop fs -mkdir /test

查看目录:

上传本地文件到hdfs:

$ ./bin/hadoop fs -put wc.input /test

 

 从hdfs分布式文件系统上面下载文件到本地系统

$ ./bin/hadoop fs -get /test/wc.put

5、配置 mapred-site.xml

在 <configuration>下面添加

<!-- 指定mr运行在yarn框架上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

 

6、配置yarn.site.xml

在 <configuration>下面添加

<property>
<name>yarn.nodemanager.aux-services</name>     #yarn默认混洗方式

<value>mapreduce_shuffle</value>
</property>

<property>
<name>yarn.resourcemanager.hostname</name>  #指定resourcemanager的主机名称
<value>master</value>
</property>

 

♥启动resourcemanager

${HADOOP_HOME}/sbin/yarn-daemon.sh start resourcemanager

♥启动nodemanager

${HADOOP_HOME}/sbin/yarn-daemon.sh start nodemanager

使用jps查看是否启动成功,如果有 resourcemanager  nodemanager 则说明成功。

♥  查看yarn的外部界面,

如果你要在Windows里面通过主机名去访问Linux里面的主机,那么你需要在Windows的hosts主机里面添加Linux主机名和其IP地址的映射关系。

这样才能正常从Windows浏览器通过主机名访问Linux,当然,你直接输入IP地址就不需要这一步了。

有时候你在修改Windows 下的/etc/hosts完成以后,保存时提示没有权限,该怎么做呢:

如图:hosts文件右键——> 安全----->指定users用户,在权限这里,把允许下面的都勾选上。

♥   允许MapReduce

在本地系统创建测试用的文件

#cat wc.put

上传到hdfs文件系统

# hadoop fs -put wc.put /

运行Wordcount MapReduce job

$ cd /data/hadoop/hadoop

$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /wc.input /wc.output

 

查看输出结果

$ hadoop fs -ls /wc.output/

有SUCCESS就代表这个job执行成功,这是一个空文件;part-r-00000既是输出结果,其中r表示是reduce阶段产生的结果,mapreduce程序执行时,可以没有reduce阶段,但是肯定会有map阶段,如果没有reduce阶段这个地方有是-m-,一个reduce会产生一个part-r-开头的文件。

•   查看结果

#  hadoop fs -cat /wc.output/part-r-00000

其结果可以看出来是按照键值排好序的。

♥   如何停止hadoop?

(1)一个一个进程慢慢停止  

$./sbin/hadoop-daemon.sh stop namenode

$./sbin/hadoop-daemon.sh stop datenode

$ ./sbin/yarn-daemon.sh stop resourcemanager

$ ./sbin/yarn-daemon.sh stop nodemanager

(2) hadoop有一个脚本文件,可以直接停止集群,这个脚本文件分开来的话就是停止hdfs和yarn。启动整个集群也可以使用 ./sbin/start-all.sh   

#./sbin/stop-all.sh   

♥   各个功能模块的介绍

(1) yarn

这是一个资源调度框架,在hadoop2.x中,主要就是管理整个集群资源的分配和调度,具体请查看  https://blog.youkuaiyun.com/liuwenbo0920/article/details/43304243

(2) hdfs 

hdfs分布式文件系统主要用来将大文件分块以后进行分布式存储数据的,突破了单台机器磁盘存储限制,这是一个相对独立的模块,能够为yarn、hbase等模块提供服务。

(3)MapReduce

MapReduce是一个计算框架,通过map、reduce阶段来分布式的对数据进行流处理,适用于对数据的流处理,对实时性要求高的应用不太适合,在hadoop1.0中,MapReduce是出于霸主级别,但是在hadoop2.0中,提供了一个更高效的处理引擎--spark。

♥   如何开启历史服务?

(1)   #./sbin/mr-jobhistory-daemon.sh start historyserver

开启以后通过web界面可以查看,点开下图的history,可以查看历史信息。

历史服务器的端口是19888.

♥  如果想在web界面查看日志该如何做呢?那就是开启日志聚集,日志聚集是在yarn框架的,所以在配置的时候是在yarn.site.xml文件里面配置

(1)日志聚集介绍

MapReduce是在各个机器上运行的,在运行过程中产生的日志存在于各个机器上,为了能够统一查看各个机器的运行日志,将日志集中存放在HDFS上,这个过程就是日志聚集。

(2)日志聚集默认是未开启的,通过配置yarn.site.xml来开启。

<property>
<name>yarn.log-aggregation-enable</name>     #  是否开启日志聚集
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>  #日志保存时间,以秒为单位。
<value>106800</value>          
</property>

 

(3)配置完以后重启yarn进程

# stop-yarn.sh

# start-yarn.sh

(4)现在就可以去web界面查看map、reduce阶段产生的日志。

当然,在执行这一步的时候,是因为我们上面刚刚跑过MapReduce程序,如果你没有跑MapReduce,则这个界面不会有这些信息。

如果是在完全分布式或者ha完全分布式集群里面,当配置完成以后,需要把配置文件拷贝到其他节点在重新启动yarn进程。

 

分布式模式

前提是前面的JDK在三台机器都已经安装好。

1、停止伪分布式模式下搭建的集群

$ stop-all.sh

2、删除伪分布式模式下生成的数据

$ rm -rf /data/hadoop/hadoop/name
$ rm -ff /data/hadoop/hadoop/data

3、修改/data/hadoop/hadoop/etc/hadoop/slaves,添加需要启动的datanode、nodemanagerjied

slave1
slave2

4、分发hadoop到其他机器

$ scp -r /data/hadoop/hadoop slave1:/data/hadoop
$ scp -r /data/hadoop/hadoop slave2:/data/hadoop

 

5、启动集群

$ start-all.sh

转载于:https://www.cnblogs.com/yjt1993/p/11052451.html

【基于QT的调色板】是一个使用Qt框架开发的色彩选择工具,类似于Windows操作系统中常见的颜色选取器。Qt是一个跨平台的应用程序开发框架,广泛应用于桌面、移动嵌入式设备,支持C++QML语言。这个调色板功能提供了横竖两种渐变模式,用户可以方便地选取所需的颜色值。 在Qt中,调色板(QPalette)是一个关键的类,用于管理应用程序的视觉样式。QPalette包含了一系列的颜色角色,如背景色、前景色、文本色、高亮色等,这些颜色可以根据用户的系统设置或应用程序的需求进行定制。通过自定义QPalette,开发者可以创建具有独特视觉风格的应用程序。 该调色板功能可能使用了QColorDialog,这是一个标准的Qt对话框,允许用户选择颜色。QColorDialog提供了一种简单的方式来获取用户的颜色选择,通常包括一个调色板界面,用户可以通过滑动或点击来选择RGB、HSV或其他色彩模型中的颜色。 横渐变取色可能通过QGradient实现,QGradient允许开发者创建线性或径向的色彩渐变。线性渐变(QLinearGradient)沿直线从一个点到另一个点过渡颜色,而径向渐变(QRadialGradient)则以圆心为中心向外扩散颜色。在调色板中,用户可能可以通过滑动条或鼠标拖动来改变渐变的位置,从而选取不同位置的颜色。 竖渐变取色则可能是通过调整QGradient的方向来实现的,将原本水平的渐变方向改为垂直。这种设计可以提供另一种方式来探索颜色空间,使得选取颜色更为直观便捷。 在【colorpanelhsb】这个文件名中,我们可以推测这是与HSB(色相、饱度、亮度)色彩模型相关的代码或资源。HSB模型是另一种常见且直观的颜色表示方式,与RGB或CMYK模型不同,它以人的感知为基础,更容易理解。在这个调色板中,用户可能可以通过调整H、S、B三个参数来选取所需的颜色。 基于QT的调色板是一个利用Qt框架其提供的色彩管理工具,如QPalette、QColorDialog、QGradient等,构建的交互式颜色选择组件。它不仅提供了横竖渐变的色彩选取方式,还可能支持HSB色彩模型,使得用户在开发图形用户界面时能更加灵活精准地控制色彩。
标题基于Spring Boot的二手物品交易网站系统研究AI更换标题第1章引言阐述基于Spring Boot开发二手物品交易网站的研究背景、意义、现状及本文方法与创新点。1.1研究背景与意义介绍二手物品交易的市场需求Spring Boot技术的适用性。1.2国内外研究现状概述当前二手物品交易网站的发展现状趋势。1.3论文方法与创新点说明本文采用的研究方法在系统设计中的创新之处。第2章相关理论与技术介绍开发二手物品交易网站所涉及的相关理论关键技术。2.1Spring Boot框架解释Spring Boot的核心概念主要特性。2.2数据库技术讨论适用的数据库技术及其在系统中的角色。2.3前端技术阐述与后端配合的前端技术及其在系统中的应用。第3章系统需求分析详细分析二手物品交易网站系统的功能需求性能需求。3.1功能需求列举系统应实现的主要功能模块。3.2性能需求明确系统应满足的性能指标安全性要求。第4章系统设计与实现具体描述基于Spring Boot的二手物品交易网站系统的设计实现过程。4.1系统架构设计给出系统的整体架构设计各模块间的交互方式。4.2数据库设计详细阐述数据库的结构设计数据操作流程。4.3界面设计与实现介绍系统的界面设计用户交互的实现细节。第5章系统测试与优化说明对系统进行测试的方法性能优化的措施。5.1测试方法与步骤测试环境的搭建、测试数据的准备及测试流程。5.2测试结果分析对测试结果进行详细分析,验证系统是否满足需求。5.3性能优化措施提出针对系统性能瓶颈的优化建议实施方案。第6章结论与展望总结研究成果,并展望未来可能的研究方向改进空间。6.1研究结论概括本文基于Spring Boot开发二手物品交易网站的主要发现成果。6.2展望与改进讨论未来可能的系统改进方向新的功能拓展。
1. 用户与权限管理模块 角色管理: 学生:查看个人住宿信息、提交报修申请、查看卫生检查结果、请假外出登记 宿管人员:分配宿舍床位、处理报修申请、记录卫生检查结果、登记晚归情况 管理员:维护楼栋与房间信息、管理用户账号、统计住宿数据、发布宿舍通知 用户操作: 登录认证:对接学校统一身份认证(模拟实现,用学号 / 工号作为账号),支持密码重置 信息管理:学生完善个人信息(院系、专业、联系电话),管理员维护所有用户信息 权限控制:不同角色仅可见对应功能(如学生无法修改床位分配信息) 2. 宿舍信息管理模块 楼栋与房间管理: 楼栋信息:名称(如 "1 号宿舍楼")、层数、性别限制(男 / 女 / 混合)、管理员(宿管) 房间信息:房间号(如 "101")、户型(4 人间 / 6 人间)、床位数量、已住人数、可用状态 设施信息:记录房间内设施(如空调、热水器、桌椅)的配置与完好状态 床位管理: 床位编号:为每个床位设置唯一编号(如 "101-1" 表示 101 房间 1 号床) 状态标记:标记床位为 "空闲 / 已分配 / 维修中",支持批量查询空闲床位 历史记录:保存床位的分配变更记录(如从学生 A 调换到学生 B 的时间与原因) 3. 住宿分配与调整模块 住宿分配: 新生分配:管理员导入新生名单后,宿管可按专业集中、性别匹配等规则批量分配床位 手动分配:针对转专业、复学学生,宿管手动指定空闲床位并记录分配时间 分配结果公示:学生登录后可查看自己的宿舍信息(楼栋、房间号、床位号、室友列表) 调整管理: 调宿申请:学生提交调宿原因(如室友矛盾、身体原因),选择意向宿舍(需有空位) 审批流程:宿管审核申请,通过后执行床位调换,更新双方住宿信息 换宿记录:保存调宿历史(申请人、原床位、新床位、审批人、时间) 4. 报修与安全管理模块 报修管理: 报修提交:学生选择宿舍、设施类型(如 "
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值