目录
2、简述独立模式、伪分布模式和完全分布模式部署Hadoop的区别
一、名次解释(每题3分,共15分)
共计11题,考试时8选5,我背8题,有3题没背,结果考试都有,8题选5个答,3个不会,不影响,等于我只需要背8个,我真是个天才hhhhh。
如果你有更好的答案或回答,请一定告知,将对其进行修正,谢谢!!!
本文为第一版,综合案例和编程根据情况后续更新。
1、大数据
是一种规模巨大,类型复杂多样,再获取、存储、管理分析方面都远远大于传统/数据库软件工具能力范围的数据集合。
2、5V特征
大数据的5V特征是指五个V开头的单词,从五个方面准确、形象的介绍了大数据的特征:大量(Volume)、真实(Veracity)、多样(Variety)、低价值密度(Value)、高速(velocity)。
3、SSH
SSH(Secure Sheel)是一种网络安全协议,通过加密和认证机制实现安全访问、文件传输和远程登陆等业务。
4、HDFS
HDFS是一种分布式文件系统,是Hadoop体系中的重要组成部分,主要用于存储和管理海量数据文件。
5、名称节点
名称节点 (NameNode) 在HDFS中通常称为主节点,负责管理分布式文件系统的命名空间和访问控制,保存了两个核心的数据结构Fsimage文件和EditLog文件
6、数据节点
Hadoop集群中的从节点,负责存储和管理文件系统的数据块。
7、元数据
答1:
元数据(MetaData)用于记录HDFS文件系统的相关信息,描述数据的属性、来源、结构等,帮助理解管理数据。——(注:元数据可以理解为数据的数据)
你也可以这样回答:
答2:
元数据(Metadata)是关于数据的数据,可以简单地理解为描述数据特征的信息。在Hadoop中,元数据主要指的是对存储在Hadoop分布式文件系统(HDFS)中的数据文件的管理信息。它包括文件的名称、位置、大小、权限等基本信息,以及如何访问这些文件的信息。
8、倒排索引
是文档检索系统中最常见的数据结构,被广泛应用于全文搜索引擎。通过记录单词在文档中存储位置的映射,提供了可以根据内容查找文档的方式。
9、单点故障
在HDFS集群中,只能有一个NameNode主节点,其运行状态决定HDFS集群是否可用,一旦主节点发生故障,则导致HDFS集群不可用。
10、高可用
为解决单点故障,允许存在多个NameNode节点,具有恢复和容错能力,当单点故障发生时,通过ZooKeeper从多个Standby状态的NameNode节点中选举出一个,使其状态改为activr,确保集群或服务的连续性和稳定性。
11、数据仓库
数据仓库是一个面向主题、集成的、相对稳定和反应历史变化的数据集合,用于企业或组织的决策分析。
二、简答题(每个6分,共30分)
1、简述Hadoop的优点及其含义
(1)低成本,可用多台廉价机组建集群,分布式处理大数据,降低成本。
(2)高可靠性,自动保存数据副本,避免数据丢失。
(3)高容错性,自动检测并应对故障,通过任务转移,防止任务失败。
(4)高效率,Hadoop可高效的执行并行计算,且在各个计算机中动态地移动计算。
(5)高扩展性,可随时添加更多的计算机,增加集群存储,计算能力。
2、简述独立模式、伪分布模式和完全分布模式部署Hadoop的区别
(1)独立模式:本地独立模式不进行任何配置,是Hadoop的默认工作模式,所有组件都在同一台机器运行,适用于学习和体验。
(2)伪分布模式:也是在一台单机上运行,通过单节点模拟分布式,但部署的Hadoop集群是一个伪分布式系统,适合本地开发和验证。
(3)完全分布模式:是一种在多台计算机JVM进程中运行Hadoop集群的工作模式,所有组件分布在多台机器上,部署的集群是完全分布式系统,适用于生产环境。
3、简述HDFS的健壮性
其健壮性可表现为:在HDFS出现故障的情况下可靠地存储数据,其运用了心跳机制、副本机制、数据完整性校验、安全模式和快照 5 种策略保证了数据存储的可靠性。
4、简述Yarn基本构架的组成及其作用
(1)ResourceManager:负责整个集群的资源管理和调度,包括接收客户端请求、启动和监控ApplicationMaster等。
(2)NodeManager:管理单个节点上的资源,处理来自ResourceManager的资源请求,并根据ApplicationMaster的指令启动或停止容器。
(3)ApplicationMaster:每个应用程序在Yarn上运行时都有一个对应的ApplicationMaster,负责协商资源、监控应用程序状态和进行容错处理。
(4)Container:是Yarn中资源分配的基本单位,封装了任务运行所需的资源环境。
5、简述不同类型ZNode的区别
(1)永久性ZNode:持久存储数据,除非被用户明确删除,否则一直存在,支持子节点。
(2)临时性ZNode:与客户端会话绑定,会话结束时自动删除,不支持子节点,用于临时数据存储。
(3)顺序性ZNode:创建时自动附加唯一序列号,确保名称唯一性,适用于需要唯一标识符的场景。
6、简述Hadoop高可用集群初次启动时的步骤
答1:
首先在三台虚拟机执行(hdfs --daemon start journalnode)启动 journalnode ;然后在Hadoop1中执行命令(hdfs namenode -format)格式化HDFS文件系统;然后执行(scp -r /export/data/hadoop/namenode/ hadoop2: /export/data/hadoop)同步NameNode,确保初次启动HDFS时,两个NameNode存储FSImage文件一致。再通过(hdfs zkfc -formatZK)格式化ZKFC,保证ZooKeeper集群能够通过ZKFC为HDFS提供高可用,最后在Hadoop1上通过Hadoop提供的一键启动脚本(start-dfs.sh)和(start-yarn.sh)分别启动HDFS 和 YARN。
答2:
(1)启动JournalNode
分别在三台虚拟机种执行命令
hdfs --daemon start journalnode
(2)格式化HDFS文件系统
在Hadoop1上执行
hdfs namenode -format
(3)同步NameNode
在Hadoop1中执行
scp -r /export/data/hadoop/namenode/ hadoop2: /export/data/hadoop
(4)格式化ZKFC
在Hadoop1中执行
hdfs zkfc -formatZK
(5)启动HDFS和YARN
在Hadoop1上通过Hadoop提供的一键启动脚本(start-dfs.sh)和(start-yarn.sh)分别启动HDFS 和 YARN。
start-dfs.sh
start-yarn.sh
7、简述Hive中分区和桶的作用
分区是根据指定分区规则将表的数据划分为多个独立的数据进行存储,每个独立的数据视为一个分区,每个分区存储在HDFS文件系统的不同目录。通过查询分区获取所需数据,避免全表扫描,提高查询性能。
桶是根据指定分桶规则将表的数据随机、均匀地划分到不同的桶进行存储,每个桶存储在HDFS文件系统地不同文件。有助于数据的均衡分布,避免数据倾斜。