《大数据技术原理与应用(第3版)》
教材配套习题
(选择题)
(版本号:2022年1月版本)
第一章 大数据概述
单选题
- 第一次信息化浪潮主要解决什么问题?B
- 信息传输
- 信息处理
- 信息爆炸
- 信息转换
- 下面哪个选项属于大数据技术的“数据存储和管理”技术层面的功能?A
- 利用分布式文件系统、数据仓库、关系数据库等实现对结构化、半结构化和非结构化海量数据的存储和管理
- 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析
- 构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全
- 把实时采集的数据作为流计算系统的输入,进行实时处理分析
- 在大数据的计算模式中,流计算解决的是什么问题?D
- 针对大规模数据的批量处理
- 针对大规模图结构数据的处理
- 大规模数据的存储管理和查询分析
- 针对流数据的实时计算
- 大数据产业指什么?A
- 一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合
- 提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业
- 提供数据分享平台、数据分析平台、数据租售平台等服务的企业
- 提供分布式计算、数据挖掘、统计分析等服务的各类企业
- 下列哪一个不属于大数据产业的产业链环节?A
- 数据循环层
- 数据源层
- 数据分析层
- 数据应用层
- 下列哪一个不属于第三次信息化浪潮中新兴的技术?A
- 互联网
- 云计算
- 大数据
- 物联网
- 云计算平台层(PaaS)指的是什么?A
- 操作系统和围绕特定应用的必需的服务
- 将基础设施(计算资源和存储)作为服务出租
- 从一个集中的系统部署软件,使之在一台本地计算机上(或从云中远程地)运行的一个模型
- 提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务
- 下面关于云计算数据中心的描述正确的是:A
- 数据中心是云计算的重要载体,为各种平台和应用提供运行支撑环境
- 数据中心就是放在企业内部的一台中心服务器
- 每个企业都需要建设一个云计算数据中心
- 数据中心不需要网络带宽的支撑
- 下列哪个不属于物联网的应用?D
- 智能物流
- 智能安防
- 环保监测
- 数据清洗
- 下列哪项不属于大数据的发展历程?D
- 成熟期
- 萌芽期
- 大规模应用期
- 迷茫期
多选题
- 第三次信息化浪潮的标志是哪些技术的兴起?BCD
- 个人计算机
- 物联网
- 云计算
- 大数据
- 信息科技为大数据时代提供哪些技术支撑?ABC
- 存储设备容量不断增加
- 网络带宽不断增加
- CPU 处理能力大幅提升
- 数据量不断增大
- 大数据具有哪些特点?ABCD
- 数据的“大量化”
- 数据的“快速化”
- 数据的“多样化”
- 数据的“价值密度比较低”
- 下面哪个属于大数据的应用领域?ABCD
- 智能医疗研发
- 监控身体情况
- 实时掌握交通状况
- 金融交易
- 大数据的两个核心技术是什么?AC
- 分布式存储
- 分布式应用
- 分布式处理
- 集中式存储
- 云计算关键技术包括什么?ABCD
- 分布式存储
- 虚拟化
- 分布式计算
- 多租户
- 云计算的服务模式和类型主要包括哪三类?ABC
- 软件即服务(SaaS)
- 平台即服务(PaaS)
- 基础设施即服务(IaaS)
- 数据采集即服务(DaaS)
- 物联网主要由下列哪些部分组成的?ABCD
- 应用层
- 处理层
- 感知层
- 网络层
- 物联网的关键技术包括哪些?ABC
- 识别和感知技术
- 网络与通信技术
- 数据挖掘与融合技术
- 信息处理一体化技术
- 大数据对社会发展的影响有哪些?ABC
(A)大数据成为一种新的决策方式
(B)大数据应用促进信息技术与各行业的深度融合
(C)大数据开发推动新技术和新应用的不断涌现
(D)大数据对社会发展没有产生积极影响
第二章 大数据处理架构Hadoop
单选题
- 下列哪个不属于Hadoop的特性?A
- 成本高
- 高可靠性
- 高容错性
- 运行在Linux平台上
- 为海量数据提供存储的HDFS和对数据进行计算的MapReduce
- 提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务
- Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中
- Hadoop被视为事实上的大数据处理标准
- 在一个基本的Hadoop集群中,DataNode主要负责什么?D
- 负责执行由JobTracker指派的任务
- 协调数据计算任务
- 负责协调集群中的数据存储
- 存储被拆分的数据块
- Hadoop最初是由谁创建的?B
- Lucene
- Doug Cutting
- Apache
- MapReduce
- 下列哪一个不属于Hadoop的大数据层的功能?C
- 数据挖掘
- 离线分析
- 实时计算
- BI分析
- 在一个基本的Hadoop集群中,SecondaryNameNode主要负责什么?A
- 帮助NameNode收集文件系统运行的状态信息
- 负责执行由JobTracker指派的任务
- 协调数据计算任务
- 负责协调集群中的数据存储
- 下面哪一项不是Hadoop的特性?B
- 可扩展性高
- 只支持少数几种编程语言
- 成本低
- 能在linux上运行
- 在Hadoop项目结构中,HDFS指的是什么?A
- 分布式文件系统
- 分布式并行编程模型
- 资源管理和调度器
- Hadoop上的数据仓库
- 在Hadoop项目结构中,MapReduce指的是什么?A
- 分布式并行编程模型
- 流计算框架
- Hadoop上的工作流管理系统
- 提供分布式协调一致性服务
10、下面哪个不是Hadoop1.0的组件:(C)
- HDFS
- MapReduce
- YARN
- NameNode和DataNode
多选题
- Hadoop的特性包括哪些?ABCD
- 高可扩展性
- 支持多种编程语言
- 成本低
- 运行在Linux平台上
- 下面哪个是Hadoop2.0的组件?AD
- ResourceManager
- JobTracker
- TaskTracker
- NodeManager
- 一个基本的Hadoop集群中的节点主要包括什么?ABCD
- DataNode:存储被拆分的数据块
- JobTracker:协调数据计算任务
- TaskTracker:负责执行由JobTracker指派的任务
- SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息
- 下列关于Hadoop的描述,哪些是正确的?ABCD
- 为用户提供了系统底层细节透明的分布式基础架构
- 具有很好的跨平台特性
- 可以部署在廉价的计算机集群中
- 曾经被公认为行业大数据标准开源软件
- Hadoop集群的整体性能主要受到什么因素影响?ABCD
- CPU性能
- 内存
- 网络
- 存储容量
- 下列关于Hadoop的描述,哪些是错误的?AB
- 只能支持一种编程语言
- 具有较差的跨平台特性
- 可以部署在廉价的计算机集群中
- 曾经被公认为行业大数据标准开源软件
- 下列哪一项不属于Hadoop的特性?AB
- 较低可扩展性
- 只支持java语言
- 成本低
- 运行在Linux平台上
第三章 分布式文件系统HDFS
单选题
- 分布式文件系统指的是什么?A
- 把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群
- 用于在Hadoop与传统数据库之间进行数据传递
- 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
- 一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据
- 下面哪一项不属于计算机集群中的节点?B
- 主节点(Master Node)
- 源节点(SourceNode)
- 名称结点(NameNode)
- 从节点(Slave Node)
- 在HDFS中,默认一个块多大?A
- 64MB
- 32KB
- 128KB
- 16KB
- 下列哪一项不属于HDFS采用抽象的块概念带来的好处?C
- 简化系统设计
- 支持大规模文件存储
- 强大的跨平台兼容性
- 适合数据备份
- 在HDFS中,NameNode的主要功能是什么?D
- 维护了block id 到datanode本地文件的映射关系
- 存储文件内容
- 文件内存保存在磁盘中
- 存储元数据
- 下面对FsImage的描述,哪个是错误的?D
- FsImage文件没有记录每个块存储在哪个数据节点
- FsImage文件包含文件系统中所有目录和文件inode的序列化形式
- FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据
- FsImage文件记录了每个块具体被存储在哪个数据节点
- 下面对SecondaryNameNode第二名称节点的描述,哪个是错误的?A
- SecondaryNameNode一般是并行运行在多台机器上
- 它是用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间
- SecondaryNameNode通过HTTPGET方式从NameNode上获取到FsImage和EditLog文件,并下载到本地的相应目录下
- SecondaryNameNode是HDFS架构中的一个组成部分
- HDFS采用了什么模型?B
- 分层模型
- 主从结构模型
- 管道-过滤器模型
- 点对点模型
- 在Hadoop项目结构中,HDFS指的是什么?A
- 分布式文件系统
- 流数据读写
- 资源管理和调度器
- Hadoop上的数据仓库
- 下列关于HDFS的描述,哪个不正确?D
- HDFS还采用了相应的数据存放、数据读取和数据复制策略,来提升系统整体读写响应性能
- HDFS采用了主从(Master/Slave)结构模型
- HDFS采用了冗余数据存储,增强了数据可靠性
- HDFS采用块的概念,使得系统的设计变得更加复杂
多选题
- 兼容廉价的硬件设备
- 流数据读写
- 大数据集
- 复杂的文件模型
- HDFS特殊的设计,在实现优良特性的同时,也使得自身具有一些应用局限性,主要包括以下哪几个方面?BCD
- 较差的跨平台兼容性
- 无法高效存储大量小文件
- 不支持多用户写入及任意修改文件
- 不适合低延迟数据访问
- HDFS采用抽象的块概念可以带来以下哪几个明显的好处?ACD
- 支持大规模文件存储
- 支持小规模文件存储
- 适合数据备份
- 简化系统设计
- 在HDFS中,名称节点(NameNode)主要保存了哪些核心的数据结构?AD
- FsImage
- DN8
- Block
- EditLog
- 数据节点(DataNode)的主要功能包括哪些?ABC
- 负责数据的存储和读取
- 根据客户端或者是名称节点的调度来进行数据的存储和检索
- 向名称节点定期发送自己所存储的块的列表
- 用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间
- HDFS的命名空间包含什么?BCD
- 磁盘
- 文件
- 块
- 目录
- 下列对于客服端的描述,哪些是正确的?ABCD
- 客户端是用户操作HDFS最常用的方式,HDFS在部署时都提供了客户端
- HDFS客户端是一个库,暴露了HDFS文件系统接口
- 严格来说,客户端并不算是HDFS的一部分
- 客户端可以支持打开、读取、写入等常见的操作
- HDFS只设置唯一一个名称节点,这样做虽然大大简化了系统设计,但也带来了哪些明显的局限性?ABCD
- 命名空间的限制
- 性能的瓶颈
- 隔离问题
- 集群的可用性
- HDFS数据块多副本存储具备以下哪些优点?ABC
- 加快数据传输速度
- 容易检查数据错误
- 保证数据可靠性
- 适合多平台上运行
- HDFS具有较高的容错性,设计了哪些相应的机制检测数据错误和进行自动恢复?BCD
- 数据源太大
- 数据节点出错
- 数据出错
- 名称节点出错
第四章 分布式数据库HBase
单选题
- 下列关于BigTable的描述,哪个是错误的?A
- 爬虫持续不断地抓取新页面,这些页面每隔一段时间地存储到BigTable里
- BigTable是一个分布式存储系统
- BigTable起初用于解决典型的互联网搜索问题
- 网络搜索应用查询建立好的索引,从BigTable得到网页
- 下列选项中,关于HBase和BigTable的底层技术对应关系,哪个是错误的?B
- GFS与HDFS相对应
- GFS与Zookeeper相对应
- MapReduce与Hadoop MapReduce相对应
- Chubby与Zookeeper相对应
- 在HBase中,关于数据操作的描述,下列哪一项是错误的?C
- HBase采用了更加简单的数据模型,它把数据存储为未经解释的字符串
- HBase操作不存在复杂的表与表之间的关系
- HBase不支持修改操作
- HBase在设计上就避免了复杂的表和表之间的关系
- 在HBase访问接口中,Pig主要用在哪个场合?D
- 适合Hadoop MapReduce作业并行批处理HBase表数据
- 适合HBase管理使用
- 适合其他异构系统在线访问HBase表数据
- 适合做数据统计
- 行键
- 关键字
- 列族
- 时间戳
- 关于HBase的三层结构中各层次的名称和作用的说法,哪个是错误的?A
- Zookeeper文件记录了用户数据表的Region位置信息
- -ROOT-表记录了.META.表的Region位置信息
- .META.表保存了HBase中所有用户数据表的Region位置信息
- Zookeeper文件记录了-ROOT-表的位置信息
- 下面关于主服务器Master主要负责表和Region的管理工作的描述