第一章
1.选择题
下列选项中,哪个属于半结构化数据?(C )
A.html
B.文本文件
C.json
D.声音
解析:半结构化数据半结构化数据适用于数据库集成,通过灵活键值对获取相应信息,格式不固定例如json,xml。本题中html、声音、文本文件均为非结构化数据。
(多选)下面内容中,那些属于数字可视化的分支(ACD)
A.科学可视化
B.图表可视化
C.信息可视化
D.可视分析学
解析:数据可视化分为:科学可视化、信息可视化、可视分析学这三个主要分支。
为大数据的集中管理和分布式访问提供了必要的场所和分享的渠道的是(B)。
A.云计算
B.HDFS
C.Hbase
D.物联网
解析:云计算为大数据的集中管理和分布式访问提供了必要的场所和分享的渠道,大数据是云计算的灵魂必然的升级方向。
2.填空题
2.1大数据结构分为()()()三种
答:结构化数据、半结构化数据、非结构化数据
2.2大数据技术主要包括 数据采集与预处理、数据存储和管理,()、和数据安全和隐私保护这四个方面简答题
答: 数据处理和分析
3.数据管理经历了哪几个阶段?
数据管理是利用计算机硬件与软件对数据进行有效的收集存储处理应用过程,目的在于充分有效地发挥数据作用,实现数据有效管理是关键组织数据。数据管理经历了人工管理、文件系统、数据库系统三个发展阶段。
Hadoop
1.下面哪个不是hadoop的四大组件(B)?
A.common
B.ZoopKeeper
C.MapReduce
D.YARN
2.NameNode和DataNode之间用什么通信()
A 有源脉冲
B 心跳
C H信号
3.hadoop的核心组件是(A)
A HDFS和MapReduce
B Hbase和Hive
C ZooKeeper和Pig
DMahout
4.Hadoop体系机构包括许多内容,最底层的是_HDFS____,它存储Hadoop集群中所有存储节点上的文件。
5.数据挖掘的常用方法为分类,回归分析,聚类,关联原则,特征分析,变化和偏差分析,Web页发掘。
6.大数据的4V特征是?
Volume(大量),Variety(多样),Velocity(高速),Veracity(精确)
数据体量大,数据类别多和类型多样,处理速度快,价值真实性高和密度低。
选择题:
1.HDFS中的block默认保存几份?
A.3份
B.2份
C.1份
D.不确定
答案:A
知识点:考察hadoop中默认的规则
2.以下哪个组件是Hadoop体系架构中用于分布式协作服务的?
A HDFS
B MapReduce
C Hbase
D Zookeeper
答案:D
知识点:考察Hadoop体系结构中各组件的功能
3.以下哪项不属于hadoop可以运行的?
A 单机(本地)模式
B 伪分布式模式
C 互联模式
D 分布式模式
答案:C
知识点:考察Hadoop的配置模式
填空题:
1 HDFS是一个主/从体系结构,其中有两类节点,分别为____和____:
答案:DataNode、NameNode
知识点:考察HDFS的体系结构
2.一个gzip文件大小75MB,Hadoop客户端设置的Block大小为64MB,该文件占用___个block。
答案:2个
知识点:考察Hadoop中lock大小与文件存储的关系。
简答题:
1.Hadoop的优点有哪5点?
答案:
1.高可用性
2.高扩展性
3.高效性
4.高容错性
5.低成本
知识点:考察Hadooo的特点
HDFS
填空题
1.HDFS是基于流数据模式访问和处理超大文件的需求而开发的,HDFS(2.0以后版本)默认BlockSize是( ) ;其适合读写的任务是( )。
答案:128MB 一次写入 多次读取
解析:
(1)在Hadoop 1.X版本中,默认blocksize为64MB;
(2)在Hadoop 2.X版本中,默认blocksize为128MB;
(3)HDFS 是设计成适应一次写入,多次读出的场景,且不支持文件的修改。正因为如此,HDFS 适合用来做大数据分析的底层存储服务,并不适合用来做网盘等应用,因为修改不方便,延迟大,网络开销大,成本太高。
选择题
2. HDFS的缺点不包括哪一项?
A.不支持多用户写入和任意修改文件
B.不适合低延迟数据访问
C.不兼容廉价的硬件设备
D.无法高效存储大量小文件
答案:C
解析:
(1)HDFS优点:兼容廉价的硬件设备、流数据读写、大数据集、跨平台兼容性、简
单的文件模型
(2)HDFS的缺点:不支持多用户写入和任意修改文件、不适合低延迟数据访问、无
法高效存储大量小文件
- 以下哪个不是 HDFS 的守护进程()
A.secondary namenode
B.datanode
C.mrappmaster/yarnchild
D.namenode
答案:C
解析:mrappmaster/yarnchild 是 YARN 中的。 - 分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些
节点分为两类,一类存储元数据叫________,另一类存储具体数据叫 ________。
A、名称节点,数据节点
B、从节点,主节点
C、数据节点,名称节点
D、名称节点,主节点
答案:A
简答题: - HDFS相比于其他的文件系统有什么特征?
答:1.对于整个集群有单一的命名空间。
2.数据一致性。适合一次写入多次读取的模型,客户端在文件没有被成功创建之前无法看到文件存在。
3.文件会被分割成多个文件块,每个文件块被分配存储到数据节点上,而且根据配置会有复制文件块来保证数据的安全性。
1.一个HDFS集群是由()个NameNode和()个DataNode组成
A.一,多
B.多,一
C.一,一
D.多,多
答案:A
难易程度:易
答案解析:HDFS集群分别是由一个NameNode和多个的 DataNode组成
知识点:HDFS集群分别是由一个NameNode和多个的 DataNode组成。其中,NameNode是HDFS集群的主节点,负责管理文件系统的命名空间以及客户端对文件的访问;DataNode是集群的从节点,负责管理它所在节点上的数据存储。
2.以下哪个不是HDFS的守护进程?
A、secondarynamenode
B、datanode
C、mrappmaster/yarnchild
D、namenode
答案:C
难易程度:中
知识点:Hadoop 在正常启动后有五个重要的守护进程,分别是NameNode,SecondaryNameNode,DataNode,JobTracker,TaskTracker。这五个进程肩负着 HDFS 在存储和计算上的各项任务。
3.关于SecondaryNameNode 哪项(C)是正确的?
A:它是NameNode 的热备
B:它是内存没有要求
C:他的目的是帮助NameNode 合并编辑日志,减少NameNode 启动时间
D:SecondaryNameNode 应与NameNode 部署到一个节点
答案:C
难易程度:中
答案解析:A.冷备B.需求一定的内存D.SecondaryNameNode内存需求和NameNode在一个数量级上,所以通常SecondaryNameNode(运行在单独的物理机器上)和NameNode运行在不同的机器上。
知识点:SecondryNameNode相关知识
4.HDFS采用____________的架构来存储数据
答案:master/slave
5.HDFS提供了一个____________和____________的海量数据存储解决方案。
答案:高度容错性,高吞吐量
6.HDFS的优点和缺点有哪些?
答案:优点:①处理超大文件;②流式的数据访问;③运行于廉价的商用机器集群上;
缺点:①不适合低延迟数据访问;②无法高效存储大量小文件。
一、选择题
-
以下对名称节点(NameNode)理解错误的是( )
A. 名称节点的数据保存在内存中
B. 名称节点通常用来保存元数据
C. 名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问
D. 名称节点用来负责具体用户数据的存储
答案:D
难易程度:中
解析:名称节点最主要功能是记录每个文件中各个块所在的数据节点的位置信息。名称节点在启动时,系统会将FsImage中的内容加载到内存中去,之后再执行EditLog中的操作,使得内存中的数据和实际同步,存在内存中的支持客户端的读。而D选项错误,应为数据节点负责具体用户数据的存储,故选择D。
知识点:名称节点(NameNode)的功能 -
下列关于HDFS的描述,哪个不正确?( )
A. HDFS采用了相应的数据存放、数据读取和数据复制策略,来提升系统整体读写响应性能
B. HDFS采用了主从(Master/Slave)结构模型
C. HDFS采用块的概念,使得系统的设计变得更加复杂
D. HDFS采用了冗余数据存储,增强了数据可靠性
答案:C
难易程度:易
解析:
与一般文件系统一样,HDFS也有块(block)的概念,HDFS上的文件也被划分为块大小的多个分块作为独立的存储单元。HDFS设置数据块的好处有:(1)一个文件的大小可以大于集群任意节点磁盘的容量(2)容易对数据进行备份,提高容错能力(3)使用抽象块概念而非整个文件作为存储单元,大大简化存储子系统的设计。因此选项C错误。
知识点:HDFS数据块的相关概念 -
DataNode的主要功能包括哪些?( )
A.负责数据的存储和读取
B.根据客户端或者是名称节点的调度来进行数据的存储和检索
C.向名称节点定期发送自己所存储的块的列表
D.用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点的重启时间
答案:ABC
难易程度:中
答案解析:选项D描述的是第二名称节点的功能,而不是DataNode的功能。
DataNode负责数据的存储和读取,同时根据名称节点的命令创建、删除数据块的冗余复制,DataNode会周期性的运行block扫描器,来检查block是否损坏,每个Datanode结点会周期性地向NameNode发送心跳信号和文件块状态报告,其具体工作流程如下图所示。
知识点:DataNode的功能
二、填空题
- HDFS采用master/slave的架构来存储数据,这种架构主要由4个部分组成,分别为 、 、 和 。
答案:HDFS Client NameNode DataNode Secondary NameNode
难易程度:易
解析:HDFS 的Master/Slave架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。一个HDFS集群是由一个NameNode和一定数目的DataNode组成的。NameNode是一个中心服务器,负责管理文件系统的名字空间 (Namespace )及客户端对文件的访问。集群中的DataNode一般是一个节点运行一个DataNode进程,负责管理它所在节点上的存储。
知识点:HDFS组成
2 . HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是 、 。
答案:一次写入、多次读取
难易程度:中
解析:HDFS被设计成适应一次写入,多次读出的场景,且不支持文件的修改。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题,并且使高吞吐量的数据访问成为可能。也正因为如此,HDFS适合用来做大数据分析的底层存储服务,并不适合用来做网盘等应用,因为修改不方便,延时高,网络开销大。
知识点:HDFS的特点
三、简答题
请根据下图简述HDFS读数据的过程。
答案:
1.客户端通过 FileSystem.open() 打开文件。
2.客户端向NameNode发起RPC远程调用,请求读取文件数据。NameNode检查文件是否存在,如果存在则获取文件的元信息(blockID以及对应的DataNode列表。
3.客户端收到元信息后,选取一个距离网络最近的DataNode,依次请求读取每个数据块。客户端首先要校验文件是否损坏,如果损坏,客户端会选取另外的DataNode请求。
4.DataNode与客户端连接,传输对应数据块,客户端收到数据缓存到本地之后写入文件。
5.依次传
大数据核心技术概览

最低0.47元/天 解锁文章
2376

被折叠的 条评论
为什么被折叠?



