《大数据技术原理与应用》试题与答案 |
问答题(100分):
(问答题,共13道题目,第1题4分,第2题6分,第3题10分,第4题10分,第5题16分,第6题6分,第7题12分,第8题6分,第9题6分,第10题8分,第11题4分,第12题6分,第13题6分)
1.(4%)请阐述大数据、云计算和物联网三者之间的关系。
答案:
近几年来,云计算受到学术界和工业界的热捧,随后,大数据横空出世,更是炙手可热。那么,大数据和云计算之间是什么关系呢?
(1)从整体上看,大数据与云计算是相辅相成的
大数据着眼于“数据”,关注实际业务,提供数据采集分析挖掘,看重的是信息积淀,即数据存储能力。云计算着眼于“计算”,关注 IT 解决方案,提供 IT 基础架构,看重的是计算能力,即数据处理能力。没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。
(2)从技术上看,大数据根植于云计算
云计算关键技术中的海量数据存储技术、海量数据管理技术、MapReduce编程模型,都是大数据技术的基础。
(3)物联网借助于云计算存储数据,借助于大数据技术分析数据。
2.(6%)下图是Hadoop生态系统图,请分别阐述Hadoop生态系统的各个组成部分(Avro、Zookeeper、HDFS、HBase、MapReduce、Pig、Hive、Sqoop)的主要功能。
答案:
- Avro是用于数据序列化的系统。它提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC的功能和简单的动态语言集成功能。
- HDFS是一种分布式文件系统,运行于大型商用机集群,HDFS为HBase提供了高可靠性的底层存储支持。
- HBase位于结构化存储层,是一个分布式的列存储数据库。
- Mapreduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。
- Zookeeper是一个分布式的、高可用性的协调服务,提供分布式锁之类的基本服务,用于构建分布式应用,为HBase提供了稳定服务和失败恢复机制。
- Hive最早是由Facebook设计的,是一个建立在Hadoop基础之上的数据仓库,它提供了一些对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析的工具。
- Pig是一种数据流语言和运行环境,用以检索非常大的数据集,大大简化了Hadoop常见的工作任务。
- Sqoop为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase中迁移变得非常方便。
3. (10%)
(1)请论述HDFS1.0中SecondaryNameNode的作用和工作原理;(6%)
(2)请阐述HDFS的名称节点中关于数据块到数据节点的映射信息是如何维护的?(2%)
(3)HDFS HA解决了HDFS1.0中的什么问题?(2%)
答案:
(1)作用是减少Editlog大小,缩短名称节点重启时间。
SecondaryNameNode的工作情况:
(1)SecondaryNameNode会定期和NameNode通信,请求其停止使用EditLog文件,暂时将新的写操作写到一个新的文件edit.new上来,这个操作是瞬间完成ÿ