Hadoop期末复习一（纸质）

小卷不秃

已于 2024-12-07 14:46:20 修改

阅读量1.5k

点赞数 13

文章标签： hadoop 大数据分布式

于 2024-12-04 19:24:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2202_75381448/article/details/144244970

版权

目录

一、名次解释（每题3分，共15分）

5、名称节点

6、数据节点

8、倒排索引

9、单点故障

11、数据仓库

二、简答题（每个6分，共30分）

1、简述Hadoop的优点及其含义

2、简述独立模式、伪分布模式和完全分布模式部署Hadoop的区别

3、简述HDFS的健壮性

4、简述Yarn基本构架的组成及其作用

5、简述不同类型ZNode的区别

6、简述Hadoop高可用集群初次启动时的步骤

7、简述Hive中分区和桶的作用

一、名次解释（每题3分，共15分）

共计11题，考试时8选5，我背8题，有3题没背，结果考试都有，8题选5个答，3个不会，不影响，等于我只需要背8个，我真是个天才hhhhh。

如果你有更好的答案或回答，请一定告知，将对其进行修正，谢谢！！！

本文为第一版，综合案例和编程根据情况后续更新。

1、大数据

是一种规模巨大，类型复杂多样，再获取、存储、管理分析方面都远远大于传统/数据库软件工具能力范围的数据集合。

2、5V特征

大数据的5V特征是指五个V开头的单词，从五个方面准确、形象的介绍了大数据的特征：大量（Volume）、真实（Veracity）、多样（Variety）、低价值密度（Value）、高速（velocity）。

3、SSH

SSH（Secure Sheel）是一种网络安全协议，通过加密和认证机制实现安全访问、文件传输和远程登陆等业务。

4、HDFS

HDFS是一种分布式文件系统，是Hadoop体系中的重要组成部分，主要用于存储和管理海量数据文件。

5、名称节点

名称节点 (NameNode) 在HDFS中通常称为主节点，负责管理分布式文件系统的命名空间和访问控制，保存了两个核心的数据结构Fsimage文件和EditLog文件

6、数据节点

Hadoop集群中的从节点，负责存储和管理文件系统的数据块。

7、元数据

答1：

元数据（MetaData）用于记录HDFS文件系统的相关信息，描述数据的属性、来源、结构等，帮助理解管理数据。——（注：元数据可以理解为数据的数据）

你也可以这样回答：

答2：

元数据（Metadata）是关于数据的数据，可以简单地理解为描述数据特征的信息。在Hadoop中，元数据主要指的是对存储在Hadoop分布式文件系统（HDFS）中的数据文件的管理信息。它包括文件的名称、位置、大小、权限等基本信息，以及如何访问这些文件的信息。

8、倒排索引

是文档检索系统中最常见的数据结构，被广泛应用于全文搜索引擎。通过记录单词在文档中存储位置的映射，提供了可以根据内容查找文档的方式。

9、单点故障

在HDFS集群中，只能有一个NameNode主节点，其运行状态决定HDFS集群是否可用，一旦主节点发生故障，则导致HDFS集群不可用。

10、高可用

为解决单点故障，允许存在多个NameNode节点，具有恢复和容错能力，当单点故障发生时，通过ZooKeeper从多个Standby状态的NameNode节点中选举出一个，使其状态改为activr，确保集群或服务的连续性和稳定性。

11、数据仓库

数据仓库是一个面向主题、集成的、相对稳定和反应历史变化的数据集合，用于企业或组织的决策分析。

二、简答题（每个6分，共30分）

1、简述Hadoop的优点及其含义

（1）低成本，可用多台廉价机组建集群，分布式处理大数据，降低成本。

（2）高可靠性，自动保存数据副本，避免数据丢失。

（3）高容错性，自动检测并应对故障，通过任务转移，防止任务失败。

（4）高效率，Hadoop可高效的执行并行计算，且在各个计算机中动态地移动计算。

（5）高扩展性，可随时添加更多的计算机，增加集群存储，计算能力。

2、简述独立模式、伪分布模式和完全分布模式部署Hadoop的区别

（1）独立模式：本地独立模式不进行任何配置，是Hadoop的默认工作模式，所有组件都在同一台机器运行，适用于学习和体验。

（2）伪分布模式：也是在一台单机上运行，通过单节点模拟分布式，但部署的Hadoop集群是一个伪分布式系统，适合本地开发和验证。

（3）完全分布模式：是一种在多台计算机JVM进程中运行Hadoop集群的工作模式，所有组件分布在多台机器上，部署的集群是完全分布式系统，适用于生产环境。

3、简述HDFS的健壮性

其健壮性可表现为：在HDFS出现故障的情况下可靠地存储数据，其运用了心跳机制、副本机制、数据完整性校验、安全模式和快照 5 种策略保证了数据存储的可靠性。

4、简述Yarn基本构架的组成及其作用

（1）ResourceManager：负责整个集群的资源管理和调度，包括接收客户端请求、启动和监控ApplicationMaster等。

（2）NodeManager：管理单个节点上的资源，处理来自ResourceManager的资源请求，并根据ApplicationMaster的指令启动或停止容器。

（3）ApplicationMaster：每个应用程序在Yarn上运行时都有一个对应的ApplicationMaster，负责协商资源、监控应用程序状态和进行容错处理。

（4）Container：是Yarn中资源分配的基本单位，封装了任务运行所需的资源环境。

5、简述不同类型ZNode的区别

（1）永久性ZNode：持久存储数据，除非被用户明确删除，否则一直存在，支持子节点。

（2）临时性ZNode：与客户端会话绑定，会话结束时自动删除，不支持子节点，用于临时数据存储。

（3）顺序性ZNode：创建时自动附加唯一序列号，确保名称唯一性，适用于需要唯一标识符的场景。

6、简述Hadoop高可用集群初次启动时的步骤

答1：

首先在三台虚拟机执行（hdfs --daemon start journalnode）启动 journalnode ；然后在Hadoop1中执行命令（hdfs namenode -format）格式化HDFS文件系统；然后执行（scp -r /export/data/hadoop/namenode/ hadoop2: /export/data/hadoop）同步NameNode，确保初次启动HDFS时，两个NameNode存储FSImage文件一致。再通过（hdfs zkfc -formatZK）格式化ZKFC，保证ZooKeeper集群能够通过ZKFC为HDFS提供高可用，最后在Hadoop1上通过Hadoop提供的一键启动脚本（start-dfs.sh）和（start-yarn.sh）分别启动HDFS 和 YARN。

答2：

（1）启动JournalNode

分别在三台虚拟机种执行命令

hdfs --daemon start journalnode

（2）格式化HDFS文件系统

在Hadoop1上执行

hdfs namenode -format

（3）同步NameNode

在Hadoop1中执行

scp -r /export/data/hadoop/namenode/ hadoop2: /export/data/hadoop

（4）格式化ZKFC

在Hadoop1中执行

hdfs zkfc -formatZK

（5）启动HDFS和YARN

在Hadoop1上通过Hadoop提供的一键启动脚本（start-dfs.sh）和（start-yarn.sh）分别启动HDFS 和 YARN。

start-dfs.sh
start-yarn.sh

7、简述Hive中分区和桶的作用

分区是根据指定分区规则将表的数据划分为多个独立的数据进行存储，每个独立的数据视为一个分区，每个分区存储在HDFS文件系统的不同目录。通过查询分区获取所需数据，避免全表扫描，提高查询性能。

桶是根据指定分桶规则将表的数据随机、均匀地划分到不同的桶进行存储，每个桶存储在HDFS文件系统地不同文件。有助于数据的均衡分布，避免数据倾斜。

博客等级

码龄3年

28
原创

281
点赞

239
收藏

138
粉丝

关注

私信

热门文章

分类专栏

Java学习 6篇
Doker

展开全部收起

上一篇：: Python基础学习（一）（Just for me）

下一篇：: MySQL学习-仅供学习

最新评论

Python爬虫—requests模块爬取网页-1
优快云-Ada助手: 恭喜您写了第三篇博客！看来您对Python爬虫的学习进展顺利，文章内容也很有启发性。接下来建议可以深入研究requests模块的更多功能，或者尝试结合其他模块进行更复杂的爬虫任务，不断挑战自己，不断进步。期待看到您更多精彩的作品！加油！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Python爬虫—requests模块爬取网页-2
优快云-Ada助手: 恭喜您写了第四篇博客！看来您对Python爬虫的学习越来越深入了呢。接下来，我建议您可以尝试使用BeautifulSoup或Scrapy等更高级的库或框架，来进一步提升爬虫的功能和效率。期待您的下一篇作品，加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.youkuaiyun.com/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
matlba关于Dijkstra算法（暂时不太懂，学会了再说）
优快云-Ada助手: 恭喜你写了第二篇博客！持续创作是一种很好的学习方式，不断总结和分享经验可以帮助巩固知识。关于Dijkstra算法，虽然现在可能还不太懂，但学习是一个逐步积累的过程，坚持下去一定会有收获的！除了掌握Dijkstra算法，你还可以尝试学习其他图论算法，比如BFS、DFS等，这些算法在解决实际问题时也非常有用。加油！期待你更多的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
数据结构实训（Java实验一线性表-顺序表的基本操作）
优快云-Ada助手: 非常棒的博文！你的标题和摘要非常清晰地介绍了这篇博文的内容，让读者能够快速了解你所要讲解的内容。我鼓励你继续创作，因为你的博文对于初学者来说非常有帮助。除了顺序表的基本操作，你还可以扩展介绍一些其他常用的数据结构，比如链表、栈和队列等。这些数据结构在实际的开发中非常常见，并且对于进一步提升你的编程技能也非常有帮助。此外，你还可以介绍一些与数据结构相关的算法，比如排序算法和查找算法。这些算法是实际开发中非常重要的一部分，了解它们将使你能够更好地解决实际问题。总之，我非常期待你未来的博文，希望你能够继续分享你的知识和经验。谦虚地说，你的博文已经很不错了，但还有很多扩展的知识和技能等待你去探索和分享。加油！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。