大数据技术题库

⼤数据技术-题库

1 、第⼀次信息化浪潮主要解决什么问题?

A 、 信息传输

B 信息处理

C 、 信息爆炸

D 、 信息转换

2 、下⾯哪个选项属于⼤数据技术的"数据存储和管理"技术层⾯的功能?

A 利⽤分布式⽂件系统、数据仓库、关系数据库等实现对结构化、半结构化 和⾮结构化海量数据的存储和管理

B 、 利⽤分布式并⾏编程模型和计算框架 ,结合机器学习和数据挖掘算法 ,实 现对海量数据的处理和分析

C 、 构建隐私数据保护体系和数据安全体系 ,有效保护个⼈隐私和数据安全

D 、 把实时采集的数据作为流计算系统的输⼊ ,进⾏实时处理分析

3 、在⼤数据的计算模式中 ,流计算解决的是什么问题?

A 、 针对⼤规模数据的批量处理

B 、 针对⼤规模图结构数据的处理

C 、 ⼤规模数据的存储管理和查询分析

D 针对流数据的实时计算

4 、⼤数据产业指什么?

A ⼀切与⽀撑⼤数据组织管理和价值发现相关的企业经济活动的集合

B 、 提供智能交通、智慧医疗、智能物流、智能电⽹等⾏业应⽤的企业

C 、 提供数据分享平台、数据分析平台、数据租售平台等服务的企业

D 、 提供分布式计算、数据挖掘、统计分析等服务的各类企业

5 、下列哪⼀个不属于⼤数据产业的产业链环节?

A 数据存储层

B 、 数据源层

C 、 数据分析层

D 、 数据应⽤层

6 、下列哪⼀个不属于 IT 领域最新的技术发展趋势?

A 、 互联⽹

B 、 云计算

C 、 ⼤数据

D 、 物联⽹

7 、云计算平台层(PaaS)指的是什么?

A 操作系统和围绕特定应⽤的必需的服务

B 、 将基础设施(计算资源和存储)作为服务出租

C 、 从⼀个集中的系统部署软件 ,使之在⼀台本地计算机上(或从云中远程地) 运⾏的⼀个模型

D 、 提供硬件、软件、 ⽹络等基础设施以及提供咨询、规划和系统集成服务 8 、云计算数据中⼼是什么?

A 数据中⼼是云计算的重要载体 ,为各种平台和应⽤提供运⾏⽀撑环境

B 、 提供智能交通、智慧医疗、智能物流、智能电⽹等

C 、 提供分布式计算、数据挖掘、统计分析等服务

D 、 提供硬件、软件、 ⽹络等基础设施

9 、下列哪个不属于物联⽹的应⽤?

A 、 智能物流

B 、 智能安防

C 、 环保监测

D 数据采集

10 、下列哪项不属于⼤数据的发展历程?

A 、 成熟期

B 、 萌芽期

C 、 ⼤规模应⽤期

D 迷茫期

11 、第三次信息化浪潮的标志是什么?

A 、 个⼈计算机

B 物联⽹

C 云计算和⼤数据

D 、 互联⽹

12 、信息科技为⼤数据时代提供哪些技术⽀撑?

A 存储设备容量不断增加

B 、 ⽹络带宽不断增加

C CPU 处理能⼒⼤幅提升

D 、 数据量不断增⼤

13 、⼤数据具有哪些特点?

A 数据的"⼤量化"

B 数据的"快速化"

C 数据的"多样化"

D 数据的"价值化"

14 、下⾯哪个属于⼤数据的应⽤领域?

A 智能医疗研发

B 监控⾝体情况

C 实时掌握交通状况

D ⾦融交易

15 、⼤数据的两个核⼼技术是什么?

A 分布式存储

B 、 数据处理与分析

C 分布式处理

D 、 数据存储与管理

16 、云计算关键技术包括什么?

A 分布式存储

B 虚拟化

C 分布式计算

D 多租户

17 、云计算的服务模式和类型包括哪些?

A 软件即服务(SaaS

B 平台即服务(PaaS

C 基础设施即服务(IaaS

D 数据即服务(DaaS

18 、物联⽹主要由下列哪些部分组成的?

A 应⽤层

B 处理层

C 感知层

D ⽹络层

19 、物联⽹的关键技术包括哪些?

A 识别和感知技术

B ⽹络与通信技术

C 数据挖掘与融合技术

D 、 信息处理⼀体化技术

20 、⼤数据对社会发展的影响有哪些?

A ⼤数据成为⼀种新的决策⽅式

B ⼤数据应⽤促进信息技术与各⾏业的深度融合

C ⼤数据开发推动新技术和新应⽤的不断涌现

D 、 ⼤数据使得数据科学家成为热门职业

21 、下列哪个不属于 Hadoop 的特性?

A 成本⾼

B 、 ⾼可靠性

C 、 ⾼容错性

D 、 运⾏在 Linux 平台上

22Hadoop框架中最核⼼的设计是什么?

A 为海量数据提供存储的HDFS 和对数据进⾏计算的 MapReduce

B 、 提供整个 HDFS ⽂件系统的 NameSpace(命名空间)管理、块管理等所有服务

CHadoop 不仅可以运⾏在企业内部的集群中 ,也可以运⾏在云计算环境中

DHadoop 被视为事实上的⼤数据处理标准

23 、在⼀个基本的 Hadoop集群中 , DataNode 主要负责什么?

A 存储被拆分的数据块

B 、 协调数据计算任务

C 、 负责协调集群中的数据存储

D 、 负责执⾏由 JobTracker 指派的任务 24Hadoop 最初是由谁创建的?

A Doug Cutting

B 、 Lucene

CApache

DMapReduce

25 、下列哪⼀个不属于 Hadoop 的⼤数据层的功能?

A 、 数据挖掘

B 、 离线分析

C 、 实时查询

DBI 分析

26 、在⼀个基本的 Hadoop集群中 ,SecondaryNameNode 主要负责什么?

A 帮助 NameNode 收集⽂件系统运⾏的状态信息

B 、 负责执⾏由 JobTracker 指派的任务

C 、 协调数据计算任务

D 、 负责协调集群中的数据存储

27 、下⾯哪⼀项不是 Hadoop 的特性?

A 只⽀持少数⼏种编程语⾔

B 、 可扩展性⾼

C 、 成本低

D 、 能在 linux 上运⾏

28 、下列哪个不是 Hadoop在企业中的应⽤架构?

A 、 ⽹络层

B 、 访问层

C 、 ⼤数据层

D 、 数据源层

29 、在Hadoop 项⽬结构中 , HDFS 指的是什么?

A 分布式⽂件系统

B 、 分布式并⾏编程模型

C 、 资源管理和调度器

DHadoop 上的数据仓库

30 、在 Hadoop 项⽬结构中 , MapReduce 指的是什么?

A 分布式并⾏编程模型

B 、 流计算框架

CHadoop 上的⼯作流管理系统

D 、 提供分布式协调⼀致性服务 31Hadoop 的特性包括哪些?

A ⾼可扩展性

B ⽀持多种编程语⾔

C 成本低

D 运⾏在 Linux 平台上

32 、 Hadoop 在企业中的应⽤架构包括哪⼏层?

A 、 访问层

B ⼤数据层

C 数据源层

D 、 ⽹络层

33Hadoop 中 ,访问层的功能是什么?

A 数据分析

B 数据实时查询

C 数据挖掘

D 、 数据接收

34MapReduce 的作业主要包括什么?

A 从磁盘或从⽹络读取数据 IO 密集⼯作

B 计算数据 CPU 密集⼯作

C 、 针对不同的⼯作节点选择合适硬件类型

D 、 负责协调集群中的数据存储

35 、⼀个基本的 Hadoop集群中的节点主要包括什么?

A DataNode:存储被拆分的数据块

B JobTracker:协调数据计算任务

C TaskTracker:负责执⾏由 JobTracker 指派的任务

D SecondaryNameNode:帮助 NameNode 收集⽂件系统运⾏的状态信息 36 、下列关于 Hadoop 的描述 ,哪些是正确的?

A 为⽤户提供了系统底层细节透明的分布式基础架构

B 具有很好的跨平台特性

C 可以部署在廉价的计算机集群中

D 被公认为⾏业⼤数据标准开源软件 37Hadoop 主要提供哪些技术服务?

A 开发⼯具

B 开源软件

C 商业化⼯具

D 、 数据采集

38Hadoop 集群的整体性能主要受到什么因素影响?

A CPU 性能

B 内存

C ⽹络

D 存储容量

39 、下列关于 Hadoop 的描述 ,哪些是错误的?

A 为⽤户提供了系统顶层分布式基础架构

B 具有较差的跨平台特性

C 、 可以部署在廉价的计算机集群中

D 、 被公认为⾏业⼤数据标准开源软件

40 、下列哪⼀项不属于 Hadoop 的特性?

A 较低可扩展性

B 只⽀持 java 语⾔

C 、 成本低

D 、 运⾏在 Linux 平台上

41 、分布式⽂件系统指的是什么?

A 把⽂件分布存储到多个计算机节点上 ,成千上万的计算机节点构成计算机 集群

B 、 ⽤于在Hadoop 与传统数据库之间进⾏数据传递

C 、 ⼀个⾼可⽤的 ,⾼可靠的 ,分布式的海量⽇志采集、聚合和传输的系统

D 、 ⼀种⾼吞吐量的分布式发布订阅消息系统 ,可以处理消费者规模的⽹站中的所有动作流数据

42 、下⾯哪⼀项不属于计算机集群中的节点?

A 源节点(SourceNode

B 、 主节点(Master Node)

C 、 名称结点(NameNode)

D 、 节点(Slave Node

43 、在 HDFS 中 ,默认⼀个块多⼤?

A 64MB

B 、 32MB

C128MB

D16MB

44 、下列哪⼀项不属于 HDFS 采⽤抽象的块概念带来的好处?

A 强⼤的跨平台兼容性

B 、 ⽀持⼤规模⽂件存储

C 、 简化系统设计

D 、 适合数据备份

45 、在 HDFS 中 , NameNode 的主要功能是什么?

A 存储元数据

B 、 存储⽂件内容

C 、 ⽂件内存保存在磁盘中

D 、 维护了 block iddatanode 本地⽂件的映射关系 46 、下⾯对 FsImage 的描述 ,哪个是错误的?

A FsImage ⽂件没有记录⽂件包含哪些块以及每个块存储在哪个数据节点

BFsImage ⽂件包含⽂件系统中所有⽬录和⽂件 inode 的序列化形式

CFsImage ⽤于维护⽂件系统树以及⽂件树中所有的⽂件和⽂件夹的元数据

D 、 FsImage ⽂件记录了所有针对⽂件的创建、删除、重命名等操作

47 、下⾯对 SecondaryNameNode第⼆名称节点的描述 ,哪个是错误的?

A SecondaryNameNode ⼀般是并⾏运⾏在多台机器上

B 、 它是⽤来保存名称节点中对 HDFS 元数据信息的备份 ,并减少名称节点重启的时间

CSecondaryNameNode 通过 HTTPGET ⽅式从 NameNode 上获取到 FsImageEditLog ⽂件 ,并下载到本地的相应⽬录下

DSecondaryNameNodeHDFS 架构中的⼀个组成部分 48HDFS 采⽤了什么模型?

A 主从结构模型

B 、 分层模式

C 、 管道-过滤器模式

D 、 点对点模式

49 、在Hadoop 项⽬结构中 , HDFS 指的是什么?

A 分布式⽂件系统

B 、 流数据读写

C 、 资源管理和调度器

DHadoop 上的数据仓库

50 、下列关于 HDFS 的描述 ,哪个不正确?

A HDFS 采⽤具体的块概念 ,具有⽀持⼤规模⽂件存储、简化系统设计

B 、 HDFS 采⽤了主从(Master/Slave)结构模型

CHDFS 采⽤了冗余数据存储 ,增强了数据可靠性

D 、 HDFS 还采⽤了相应的数据存放、数据读取和数据复制策略 ,来提升系统整 体读写响应性能

51HDFS 要实现以下哪⼏个⽬标?

A 兼容廉价的硬件设备

B 流数据读写

C ⼤数据集

D 、 复杂的⽂件模型

52HDFS 特殊的设计 ,在实现上述优良特性的同时 ,也使得⾃⾝具有⼀些应⽤局限性 ,主要包括以下哪⼏个⽅⾯?

A 不适合低延迟数据访问

B ⽆法⾼效存储⼤量⼩⽂件

C 不⽀持多⽤户写⼊及任意修改⽂件

D 、 较差的跨平台兼容性

53HDFS 采⽤抽象的块概念可以带来以下哪⼏个明显的好处?

A ⽀持⼤规模⽂件存储

B 简化系统设计

C 适合数据备份

D 、 ⽀持中等规模⽂件存储

54 、在 HDFS 中 ,名称节点(NameNode)主要保存了哪些核⼼的数据结构?

AFsImage

B EditLog

CBlock

DDN8

55 、数据节点(DataNode)的主要功能包括哪些?

A 负责数据的存储和读取

B 根据客户端或者是名称节点的调度来进⾏数据的存储和检索

C 向名称节点定期发送⾃⼰所存储的块的列表

D 、 ⽤来保存名称节点中对 HDFS 元数据信息的备份 ,并减少名称节点重启的时间

56HDFS 的命名空间包含什么?

A ⽬录

B ⽂件

C

D 、 磁盘

57 、下列对于客服端的描述 ,哪些是正确的?

A 客户端是⽤户操作 HDFS 最常⽤的⽅式 HDFS 在部署时都提供了客户端

B HDFS 客户端是⼀个库 ,暴露了 HDFS ⽂件系统接⼝

C 严格来说 ,客户端并不算是 HDFS 的⼀部分

D 客户端可以⽀持打开、读取、写⼊等常见的操作

58HDFS 只设置唯⼀⼀个名称节点 ,这样做虽然⼤⼤简化了系统设计 ,但也带 来了哪些明显的局限性?

A 命名空间的限制

B 性能的瓶颈

C 隔离问题

D 集群的可⽤性

59HDFS 数据块多副本存储具备以下哪些有点?

A 加快数据传输速度

B 容易检查数据错误

C 保证数据可靠性

D 、 适合多平台上运⾏

60HDFS 具有较⾼的容错性 ,设计了哪些相应的机制检测数据错误和进⾏⾃动 恢复?

A 名称节点出错

B 数据节点出错

C 数据出错

D 、 数据源太⼤

61 、下列哪个不属于 NoSQL 数据库的特点?

A 、 灵活的可扩展性

B 、 灵活的数据模型

C 、 与云计算紧密融合

D ⼤型的数据库

62 、下⾯关于NoSQL 和关系数据库的简单⽐较 ,哪个是错误的?

ARDBMS 有关系代数理论作为基础 , NoSQL 没有统⼀的理论基础

B NoSQL 很难实现横向扩展 RDBMS 可以很容易通过添加更多设备来⽀持更⼤ 规模的数据

CRDBMS 需要定义数据库模式 ,严格遵守数据定义 , NoSQL 不存在数据库模 式 ,可以⾃由灵活定义并存储各种不同类型的数据

D 、 RDBMS 借助于索引机制可以实现快速查询 ,很多 NoSQL 数据库没有⾯向复 杂查询的索引

63 、下列哪⼀项不属于 NoSQL 的四⼤类型?

A 、 ⽂档数据库

B 、 图数据库

C 、 列族数据库

D 时间戳数据库

64 、下列关于键值数据库的描述 ,哪⼀项是错误的?

A 、 扩展性好 ,灵活性好

B 、 ⼤量写操作时性能⾼

C 、 ⽆法存储结构化信息

D 条件查询效率⾼

65 、下列关于列族数据库的描述 ,哪⼀项是错误的?

A 查找速度慢 ,可扩展性差

B 、 功能较少 ,⼤都不⽀持强事务⼀致性

C 、 容易进⾏分布式扩展

D 、 复杂性低

66 、下列哪⼀项不属于数据库事务具有 ACID 四性?

A 间断性

B 、 原⼦性

C 、 ⼀致性

D 、 持久性

67 、下⾯关于 MongoDB 说法 ,哪⼀项是正确的?

A 、 具有较差的⽔平可扩展性

B 、 设置个别属性的索引来实现更快的排序

C 、 提供了⼀个⾯向⽂档存储 ,操作复杂

D 可以实现替换完成的⽂档(数据)或者⼀些指定的数据字段 68 、下列关于 MongoDB数据类型的说法 ,哪⼀项是错误的?

A Code ⽤于存储⼆进制数据

B 、 Object ⽤于内嵌⽂档

CNull ⽤于创建空值

DString 字符串 ,储数据常⽤的数据类型

69 、下列关于NoSQL 与关系数据库的⽐较 ,哪个说法是错误的?

A 、 在⼀致性⽅⾯ , RDBMS 强于 NoSQL

B 、 在数据完整性⽅⾯ , RDBMS 容易实现

C 、 在扩展性⽅⾯ , NoSQL ⽐较好

D 在可⽤性⽅⾯ NoSQL 优于 RDBMS

70 、关于⽂档数据库的说法 ,下列哪⼀项是错误的?

A 数据是规则的

B 、 性能好(⾼并发)

C 、 缺乏统⼀的查询语法

D 、 复杂性低

71 、关系数据库已经⽆法满⾜ Web2 .0 的需求 ,主要表现在以下⼏个⽅⾯?

A ⽆法满⾜海量数据的管理需求

B ⽆法满⾜数据⾼并发的需求

C ⽆法满⾜⾼可扩展性和⾼可⽤性的需求

D 、 使⽤难度⾼

72 、下列关于 MySQL集群的描述 ,哪些是正确的?

A 复杂性:部署、管理、配置很复杂

B 数据库复制:MySQL 主备之间采⽤复制⽅式 ,只能是异步复制

C 扩容问题:如果系统压⼒过⼤需要增加新的机器 ,这个过程涉及数据重新 划分

D 动态数据迁移问题:如果某个数据库组压⼒过⼤ ,需要将其中部分数据迁 移出去

73 、关系数据库引以为傲的两个关键特性(完善的事务机制和⾼效的查询机 制) ,到了 Web2 .0 时代却成了鸡肋 ,主要表现在以下哪⼏个 ⽅⾯?

A Web2 .0 ⽹站系统通常不要求严格的数据库事务

BWeb2 .0 ⽹站系统基本上不⽤数据库来存储

C Web2 .0 并不要求严格的读写实时性

D Web2 .0 通常不包含⼤量复杂的 SQL 查询

74 、下⾯关于NoSQL 与关系数据库的⽐较 ,哪些是正确的?

A 关系数据库以完善的关系代数理论作为基础 ,有严格的标准

B 关系数据库可扩展性较差 ,⽆法较好⽀持海量数据存储

C NoSQL 可以⽀持超⼤规模数据存储

D NoSQL 数据库缺乏数学理论基础 ,复杂查询性能不⾼ 75 、下列关于⽂档数据库的描述 ,哪些是正确的?

A 性能好(⾼并发 灵活性⾼

B 、 具备统⼀的查询语法

C 、 ⽂档数据库⽀持⽂档间的事务

D 复杂性低 ,数据结构灵活

76 、下列关于图形数据库的描述 ,哪些是正确的?

A 专门⽤于处理具有⾼度相互关联关系的数据

B ⽐较适合于社交⽹络、模式识别、依赖分析、推荐系统以及路径寻找等问

C 灵活性⾼ ,⽀持复杂的图形算法

D 复杂性⾼ ,只能⽀持⼀定的数据规模 77NoSQL 的三⼤基⽯?

A CAP

B 最终⼀致性

C BASE

DDN8

78 、关于 NoSQL 的三⼤基⽯之⼀的 CAP ,下列哪些说法是正确的?

A ⼀致性 ,是指任何⼀个读操作总是能够读到之前完成的写操作的结果量

B 、 ⼀个分布式系统可以同时满⾜⼀致性、可⽤性和分区容忍性这三个需求

C 可⽤性 ,是指快速获取数据

D 分区容忍性 ,是指当出现⽹络分区的情况时(即系统中的⼀部分节点⽆法 和其他节点进⾏通信 分离的系统也能够正常运⾏

79 、 当处理 CAP 的问题时 ,可以有哪⼏个明显的选择?

A CA:也就是强调⼀致性(C)和可⽤性(A 放弃分区容忍性(P

B CP:也就是强调⼀致性(C)和分区容忍性(P 放弃可⽤性(A

C AP:也就是强调可⽤性(A)和分区容忍性(P 放弃⼀致性(C

D 、 CAP:也就是同时兼顾可⽤性(A)、分区容忍性(P)和⼀致性(C) , 当时系统性能会下降很多

80 、数据库事务具有 ACID 四性 ,下⾯哪⼏项属于四性?

A 、 原⼦性

B 持久性

C 、 间断性

D ⼀致性

81 、下列哪个不属于云计算的优势?

A 、 按需服务

B 、 随时服务

C 、 通⽤性

D 价格不菲

82 、下列关于云数据库的描述 ,哪个是错误的?

A 、 云数据库是部署和虚拟化在云计算环境中的数据库

B 、 云数据库是在云计算的⼤背景下发展起来的⼀种新兴的共享基础架构的⽅ 法

C 云数据库价格不菲 ,维护费⽤极其昂贵

D 、 云数据库具有⾼可扩展性、⾼可⽤性、采⽤多租形式和⽀持资源有效分发 等特点

83 、下列哪⼀个不属于云数据库产品?

A MySQL

B 、 阿⾥云 RDS

COracle Cloud

D 、 百度云数据库

84UMP 系统是构建在⼀个⼤的集群之上的 ,下列哪⼀项不属于系统向⽤户提 供的功能?

A 、 读写分离

B 、 分库分表

C 、 数据安全

D 资源合并

85 、下列关于 UMP 系统功能的说法 ,哪个是错误的?

A 充分利⽤主从库实现⽤户读写操作的分离 ,实现负载均衡

BUMP 系统实现了对于⽤户透明的读写分离功能

CUMP 采⽤的两种资源隔离⽅式(⽤ Cgroup 限制MySQL 进程资源和在Proxy 服务器端限制 QPSDUMP 系统只设计了⼀种机制来保证数据安全 86 、下列关于阿⾥云 RDS 的说法 ,哪个是错误的?

A 、 RDS 是阿⾥云提供的关系型数据库服务

BRDS 由专业数据库管理团队维护

CRDS 具有安全稳定、数据可靠、 ⾃动备份

D RDS 实例 ,是⽤户购买RDS 服务的基本单位。在实例中 ,⽤户只能创建⼀ 个数据库

87 、下⾯哪⼀项不是云数据库的特性?

A 、 动态可扩展

B ⾼成本

C 、 易⽤性

D 、 ⼤规模并⾏处理

88 、下列哪个不是 UMP 系统中的⾓⾊?

A 、 Controller 服务器

BProxy 服务器

C 、 愚公系统

D 数据处理服务器

89 、关于 UMP 系统架构依赖的开源组件 Mnesia ,说法错误的是哪⼀项?

AMnesia 是⼀个分布式数据库管理系统

B Mnesia 的数据库模式(schema)只能在未运⾏前静态重配置

C 、 Mnesia 的这些特性 ,使其在开发云数据库时被⽤来提供分布式数据库服务

DMnesia ⽀持事务 ,⽀持透明的数据分⽚

90 、关于 UMP 系统架构的 Controller服务器 ,说法错误的是哪⼀项?

AController 服务器向 UMP 集群提供各种管理服务

BController 服务器上运⾏了⼀组 Mnesia 分布式数据库服务

C 当其它服务器组件需要获取⽤户数据时 ,不可以向 Controller 服务器发送 请求获取数据

D 、 为了避免单点故障 ,保证系统的⾼可⽤性 , UMP 系统中部署了多台 Controller 服务器

91 、云数据库具有以下哪些特性?

A 动态可扩展

B ⾼可⽤性

C 免维护

D 安全

92 、下列关于云数据库的描述 ,哪些是正确的?

A Amazon 是云数据库市场的先⾏者

B Google Cloud SQL 是⾕歌公司推出的基于 MySQL 的云数据库

C 从数据模型的⾓度来说 ,云数据库并⾮⼀种全新的数据库技术

D 云数据库并没有专属于⾃⼰的数据模型

93UMP 系统架构设计遵循了以下哪些原则?

A 保持单⼀的系统对外⼊⼝ ,并且为系统内部维护单⼀的资源池

B 消除单点故障 ,保证服务的⾼可⽤性

C 保证系统具有良好的可伸缩 能够动态地增加、删减计算与存储节点

D 保证分配给⽤户的资源也是弹性可伸缩的

94UMP 系统架构依赖的哪些开源组件?

A Mnesia

B LVS

C RabbitMQ

D ZooKeeper

95 、⼀个基本的 Hadoop集群中的节点主要包括什么?

A DataNode:存储被拆分的数据块

B JobTracker:协调数据计算任务

C TaskTracker:负责执⾏由 JobTracker 指派的任务

D SecondaryNameNode:帮助 NameNode 收集⽂件系统运⾏的状态信息 96 、下列关于 UMP 系统架构的描述 ,哪些是正确的?

A 信息统计服务器定期将采集到的⽤户的连接数

BWeb 控制台向系统⼈员提供系统管理界⾯

C LVS(Linux Virtual Server) Linux 虚拟服务器

D UMP 系统借助于 LVS 来实现集群内部的负载均衡

97 、为什么说云数据库是个性化数据存储需求的理想选择?

A 云数据库可以满⾜⼤企业的海量数据存储需求

B 云数据库可以满⾜中⼩企业的低成本数据存储需求

C 云数据库可以满⾜企业动态变化的数据存储需求

D 前期零投⼊、后期免维护的数据库服务 ,可以很好满⾜它们的需求 98 、下列关于云数据库与其他数据库的关系 ,哪些是正确的?

A 从数据模型的⾓度来说 ,云数据库并⾮⼀种全新的数据库技术

B 云数据库并没有专属于⾃⼰的数据模型 ,云数据库所采⽤的数据模型可以 是关系数据库所使⽤的关系模型

C 、 同⼀个公司只能提供采⽤不同数据模型的单个云数据库服务

D 许多公司在开发云数据库时 ,后端数据库都是直接使⽤现有的各种关系数 据库或 NoSQL 数据库产品

99 、下列关于 Amazon 的云数据库产品 ,说法正确的哪⼏项?

A Amazon RDS:云中的关系数据库

B Amazon SimpleDB:云中的键值数据库

C Amazon DynamoDB:云中的数据仓库

DAmazon ElastiCache:云中的分布式内存缓存

100Microsoft 的云数据库产品 SQL Azure 具有以下哪些特性?

A 属于关系型数据库:⽀持使⽤ TSQL 来管理、创建和操作云数据库

B ⽀持存储过程:它的数据类型、存储过程和传统的 SQL Server具有很⼤的 相似性

C ⽀持⼤量数据类型

D ⽀持云中的事务:⽀持局部事务 ,但是不⽀持分布式事务 101 、下列传统并⾏计算框架 ,说法错误的是哪⼀项? A 、 ⼑⽚服务器、⾼速⽹、SAN ,价格贵 ,扩展性差上

B 共享式(共享内存/共享存储) ,容错性好

Cwhat-how ,难

D 、 实时、细粒度计算、计算密集型

102 、下列关于 MapReduce模型的描述 ,错误的是哪⼀项?

AMapReduce 采⽤" 分⽽治之"策略

B 、 MapReduce 设计的⼀个理念就是" 计算向数据靠拢"

CMapReduce 框架采⽤了 Master/Slave 架构

D MapReduce 应⽤程序只⽤ Java 来写

103MapReduce 的体系结构在 ,JobTracker 是主要任务是什么?

A 负责资源监控和作业调度 ,监控所有 TaskTracker Job 的健康状况

B 、 使⽤"slot"等量划分本节点上的资源量(CPU 、 内存等)

C 、 会周期性地通过"⼼跳"将本节点上资源的使⽤情况和任务的运⾏进度汇 报给 TaskTracker

D 、 会跟踪任务的执⾏进度、资源使⽤量等信息 ,并将这些信息告诉任务

Task

104 、下列关于 MapReduce ⼯作流程 ,哪个描述是正确的?

A 所有的数据交换都是通过 MapReduce框架⾃⾝去实现的

B 、 不同的 Map任务之间会进⾏通信

C 、 不同的 Reduce 任务之间可以发⽣信息交换

D 、 ⽤户可以显式地从⼀台机器向另⼀台机器发送消息 105 、下列关于 MapReduce 的说法 ,哪个描述是错误的? AMapReduce 具有⼴泛的应⽤ , ⽐如关系代数运算、分组与聚合运算等

BMapReduce 将复杂的、运⾏于⼤规模集群上的并⾏计算过程⾼度地抽象到 了两个函数

C 、 编程⼈员在不会分布式并⾏编程的情况下 ,也可以很容易将⾃⼰的程序运 ⾏在分布式系统上 ,完成海量数据集的计算

D 不同的 Map任务之间可以进⾏通信

106 、下列关于 MapReduce 函数的描述 ,哪个是错误的?

A 、 Map 将⼩数据集进⼀步解析成⼀批<key ,value>对 ,输⼊ Map 函数中进⾏处 理

BMap 每⼀个输⼊的<k 1 ,v 1 >会输出⼀批<k 2 ,v 2 ><k 2 ,v 2 >是计 算的中间结果

C Reduce 输⼊的中间结果<k 2 ,List(v 2 )>中的 List(v 2 )表⽰是⼀批属 于不同⼀个 k 2 value

D 、 Reduce 输⼊的中间结果<k 2 ,List(v 2 )>中的 List(v 2 )表⽰是⼀批属 于同⼀个 k 2 的 value

107 、下⾯哪⼀项不是 MapReduce体系结构主要部分?

A Client

BJobTracker

CTaskTracker 以及 Task

DJob

108 、关于 MapReduce 的体系结构的描述 ,下列说法错误的是?

A 、 ⽤户可通过 Client 提供的⼀些接⼝查看作业运⾏状态

B 、 ⽤户编写的 MapReduce程序通过 Client 提交到 JobTracker

C JobTracker 负责资源监控和作业调度

DJobTracker 会跟踪任务的执⾏进度、资源使⽤量等信息 ,并将这些信息告 诉任务调度器(TaskScheduler

109 、关于 MapReduce 的体系结构的描述 ,下列说法错误的是?

A Task 分为 Map Task Reduce Task 两种 ,分别由 JobTracker TaskTracker启动

Bslot 分为 Map slotReduce slot 两种 ,分别供 MapTaskReduce Task 使⽤

CTaskTracker 使⽤"slot"等量划分本节点上的资源量(CPU 、 内存等)

DTaskTracker 会周期性接收 JobTracker 发送过来的命令并执⾏相应的操 作(如启动新任务、杀死任务等)

110 、下列说法有误的是?

A 、 Hadoop MapReduce 是 MapReduce 的开源实现 ,后者⽐前者使⽤门槛低很多

BMapReduce ⾮共享式 ,容错性好

C MapReduce 批处理、实时、数据疏散型

DMapReduce 采⽤" 分⽽治之"策略

111MapReduce 相较于传统的并⾏计算框架有什么优势?

A ⾮共享式 ,容错性好

B 普通 PC ,便宜 ,扩展性好

C what ,简单

D 批处理、⾮实时、数据密集型

112MapReduce体系结构主要由以下那⼏部分构成?

A Client

B JobTracker

C TaskTracker

D Task

113 、下列关于 MapReduce 的体系结构的描述 ,说法正确的有?

A ⽤户编写的 MapReduce程序通过 Client 提交到 JobTracker

B JobTracker 负责资源监控和作业调度

CTaskTracker 监控所有 TaskTrackerJob 的健康状况

D TaskTracker 使⽤"slot"等量划分本节点上的资源量(CPU 内存等) 114MapReduce 的作业主要包括什么?

A 从磁盘或从⽹络读取数据 IO 密集⼯作

B 计算数据 CPU 密集⼯作

C 、 针对不同的⼯作节点选择合适硬件类型

D 、 负责协调集群中的数据存储

115 、对于 MapReduce⽽⾔ ,其处理单位是splitsplit 是⼀个逻辑概念 , 它包含哪些元数据信息?

A 数据起始位置

B 数据长度

C 数据所在节点

D 数据⼤⼩

116 、下列关于 Map端的 Shuffle 的描述 ,哪些是正确的?

AMapReduce 默认 1000MB 缓存

B 多个溢写⽂件归并成⼀个或多个⼤⽂件 ,⽂件中的键值对是排序的

C 当数据很少时 ,不需要溢写到磁盘 ,直接在缓存中归并 ,然后输出给 Reduce

D 、 每个 Map 任务分配多个缓存 ,使得任务运⾏更有效率 117MapReduce 的具体应⽤包括哪些?

A 关系代数运算(选择、投影、并、交、差、连接)

B 分组与聚合运算

C 矩阵-向量乘法

D 矩阵乘法

118MapReduce 执⾏的全过程包括以下哪⼏个主要阶段?

A 从分布式⽂件系统读⼊数据

B 执⾏ Map 任务输出中间结果

C 通过 Shuffle 阶段把中间结果分区排序整理后发送给 Reduce 任务

D 执⾏ Reduce 任务得到最终结果并写⼊分布式⽂件系统

119 、下列关于分布式并⾏编程的描述 ,哪些是正确的?

A "摩尔定律" CPU 性能⼤约每隔 18 个⽉翻⼀番

B 分布式程序运⾏在⼤规模计算机集群上

C ⾕歌公司最先提出了分布式并⾏编程模型 MapReduce

D 、 MapReduce 是 Hadoop 的开源实现

120 、下列说法正确的是?

A MapReduce体系结构主要由四个部分组成 ,分别是:Client JobTrackerTaskTracker 以及 Task

B Task 分为 Map Task Reduce Task 两种 ,均由 TaskTracker 启动

C MapReduce ⼯作流程中 ,所有的数据交换都是通过 MapReduce框架⾃⾝ 去实现的

D MapReduce ⼯作流程中 ,⽤户不能显式地从⼀台机器向另⼀台机器发送 消息

121Hadoop1 .0 的核⼼组件(仅指 MapReduceHDFS ,不包括 Hadoop ⽣态系 统内的 PigHiveHBase 等其他组件) ,下列哪项 是它的不⾜?

A 、 抽象层次⾼

B 表达能⼒有限 ,抽象层次低 ,需⼈⼯编码

C 、 价格昂贵

D 、 可维护性低

122 、下⾯哪个选项不属于 Hadoop1 .0 的问题?

A 、 单⼀名称节点 ,存在单点失效问题

B 、 单⼀命名空间 ,⽆法实现资源隔离

C 、 资源管理效率低

D 很难上⼿

123 、下列哪项是 Hadoop ⽣态系统中Spark 的功能?

A 、 处理⼤规模数据的脚本语⾔

B 、 ⼯作流和协作服务引擎 ,协调 Hadoop 上运⾏的不同任务

C 、 ⽀持 DAG 作业的计算框架

D 基于内存的分布式并⾏编程框架 ,具有较⾼的实时性 ,并且较好⽀持迭代 计算

124 、在 Hadoop ⽣态系统中 , Kafka 主要解决 Hadoop 中存在哪些的问题?

A Hadoop ⽣态系统中各个组件和其他产品之间缺乏统⼀的、⾼效的数据交换中介

B 、 不同的 MapReduce任务之间存在重复操作 , 降低了效率

C 、 延迟⾼ ,⽽且不适合执⾏迭代计算

D 、 抽象层次低 ,需要⼿⼯编写⼤量代码

125 、下列哪⼀个不属于 HDFS1 .0 中存在的问题?

A 、 不可以⽔平扩展

B 多点故障问题

CHDFS HA 是热备份 ,提供⾼可⽤性 ,但是⽆法解决可扩展性、系统性能和隔离性

D 、 系统整体性能受限于单个名称节点的吞吐量

126 、关于 HDFS Federation 的设计的描述 ,哪个是错误的?

A 属于不同命名空间的块可以构成同⼀个"块池"

BHDFS Federation 中 ,所有名称节点会共享底层的数据节点存储资源 ,数 据节点向所有名称节点汇报 C 、 设计了多个相互独⽴的名称节点

D 、 HDFS 的命名服务能够⽔平扩展

127 、下列关于 . HDFS Federation 的描述 ,错误的是?

A 不存在单点故障

BJobTracker"⼤包⼤揽"导致任务过重

C 、 容易出现内存溢出(分配资源只考虑 MapReduce 任务数 ,不考虑 CPU 、 内存)

D 、 资源划分不合理(强制划分为 slot ,包括 Map slotReduce slot128 、下列哪⼀项不属于 MapReduce1 .0 的缺陷?

A 数据中⼼是云计算的重要载体 ,为各种平台和应⽤提供运⾏⽀撑环境

B 、 提供智能交通、智慧医疗、智能物流、智能电⽹等

C 、 提供分布式计算、数据挖掘、统计分析等服务

D 、 提供硬件、软件、 ⽹络等基础设施

129 、下列哪个不属于 YARN 体系结构中 ResourceManager 的功能?

A 、 处理客户端请求

B 、 监控 NodeManager

C 、 资源分配与调度

D 处理来⾃ ApplicationMaster 的命令

130 、下列哪个不属于 YARN 体系结构中ApplicationMaster 的功能?

A 、 任务调度、监控与容错

B 、 为应⽤程序申请资源

C 、 将申请的资源分配给内部任务

D 处理来⾃ ResourceManger 的命令

131 、下列选项中 ,哪些属于 Hadoop1 .0 的核⼼组件的不⾜之处?

B 资源浪费(Map Reduce 分两阶段执⾏)

C 执⾏迭代操作效率低

D 难以看到程序整体逻辑

132Hadoop 的优化与发展主要体现在哪⼏个⽅⾯?

A Hadoop ⾃⾝核⼼组件 MapReduce 的架构设计改进

B Hadoop ⾃⾝核⼼组件 HDFS 的架构设计改进

C Hadoop ⽣态系统其它组件的不断丰富

DHadoop ⽣态系统减少不必要的组件 ,整合系统 133 、下列哪些属于 Hadoop2 .0 的改进?

A 设计了 HDFS HA

B 提供名称节点热备机制

C 设计了 HDFS Federation ,管理多个命名空间

D 设计了新的资源管理框架 YARN

134 、下⾯哪个属于不断完善的 Hadoop ⽣态系统中的组件?

APig

B Spark

C Kafka

DDN8

135HDFS1 .0 主要存在哪些问题?

A 单点故障问题

B 不可以⽔平扩展

C 单个名称节点难以提供不同程序之间的隔离性

D 系统整体性能受限于单个名称节点的吞吐量

136 、 HDFS Federation 相对于 HDFS1 .0 的优势主要体现在哪⾥?

A 、 能够解决单点故障问题

B HDFS 集群扩展性

C 性能更⾼效

D 良好的隔离性

137JobTracker 主要包括哪三⼤功能?

A 资源管理

B 任务调度

C 任务监控

D 、 数据即服务

138YARN 体系结构主要包括哪三部分?

A ResourceManager

B NodeManager

C ApplicationMaster

DDataManager

139 、在 YARN 体系结构中 ,ApplicationMaster 主要功能包括哪些?

A 当⽤户作业提交时 ApplicationMaster ResourceManager协商获取资 ResourceManager会以容器的形式为

ApplicationMaster 分配资源

B 把获得的资源进⼀步分配给内部的各个任务(Map 任务或 Reduce 任务 实现资源的"⼆次分配"

C 定时向 ResourceManager发送"⼼跳"消息 ,报告资源的使⽤情况和应⽤的进度信息

D 、 向 ResourceManager汇报作业的资源使⽤情况和每个容器的运⾏状态 140YARN 的⽬标就是实现"⼀个集群多个框架" ,为什么?

A ⼀个企业当中同时存在各种不同的业务应⽤场景 ,需要采⽤不同的计算框

B 为了避免不同类型应⽤之间互相⼲扰 ,企业就需要把内部的服务器拆分成 多个集群 ,分别安装运⾏不同的计算框架 "⼀个框架⼀个

集群"

C 这些产品通常来⾃不同的开发团队 ,具有各⾃的资源调度管理机制

D 、 解决单点故障

141 、下列关于 Spark 的描述 ,错误的是哪⼀项?

A 、 Spark 最初由美国加州伯克利⼤学(UCBerkeley)的 AMP 实验室于 2009年 开发

BSpark2014 年打破了 Hadoop保持的基准排序纪录 .

CSpark ⽤⼗分之⼀的计算资源 ,获得了⽐ Hadoop3 倍的速度

D Spark 运⾏模式单⼀

142 、下⾯关于 Spark 的说法 ,错误的是哪⼀项?

A 、 使⽤ DAG 执⾏引擎以⽀持循环数据流与内存计算

B 、 可运⾏于独⽴的集群模式中 ,可运⾏于 Hadoop 中 ,也可运⾏于 Amazon EC2 等云环境中

C ⽀持使⽤ Scala Java Python R 语⾔进⾏编程 ,但是不可以通过 Spark Shell 进⾏交互式编程

D 、 Spark 提供了内存计算 ,可将中间结果放到内存中 ,对于迭代计算效率更 ⾼

143 、下列关于 Scala特性的描述 ,错误的是哪⼀项?

A Scala 语法复杂 ,但是能提供优雅的 API 计算

BScala 具备强⼤的并发性 ,⽀持函数式编程 ,可以更好地⽀持分布式系统

C 、 Scala 兼容 Java ,运⾏速度快 ,且能融合到 Hadoop ⽣态圈中

DScalaSpark 的主要编程语⾔ 144 、下列说法哪项有误?

A 、 相对于 Spark来说 ,使⽤Hadoop 进⾏迭代计算⾮常耗资源

BSpark将数据载⼊内存后 ,之后的迭代计算都可以直接使⽤内存中的中间结果作运算 ,避免了从磁盘中频繁读取数据

C Hadoop 的设计遵循"⼀个软件栈满⾜不同应⽤场景"的理念

DSpark 可以部署在资源管理器 YARN 之上 ,提供⼀站式的⼤数据解决⽅案 145 、在Spark ⽣态系统组件的应⽤场景中 ,下列哪项说法 是错误的?

ASpark 应⽤在复杂的批量数据处理

BSpark SQL 是基于历史数据的交互式查询

C Spark Streaming 是基于历史数据的数据挖掘

DGraphX 是图结构数据的处 146 、下列说法错误的是?

A RDD  Resillient Distributed Dataset)是运⾏在⼯作节点

WorkerNode)的⼀个进程 ,负责运⾏ Task

BApplication 是⽤户编写的 Spark 应⽤程序

C 、 ⼀个Job 包含多个 RDD 及作⽤于相应 RDD 上的各种操作

DDirected Acyclic Graph 反映 RDD 之间的依赖关系 147 、下列关于 RDD 说法 ,描述有误的是?

A 、 ⼀个 RDD 就是⼀个分布式对象集合 ,本质上是⼀个只读的分区记录集合

B 、 每个 RDD 可分成多个分区 ,每个分区就是⼀个数据集⽚段

C RDD 是可以直接修改的

DRDD 提供了⼀种⾼度受限的共享内存模型

148 、下列哪⼀项不属于 Spark架构的优点?

A 、 实现⼀键式安装和配置、线程级别的任务监控和告警

B 、 降低硬件集群、软件维护、任务监控和应⽤开发的难度

C 、 便于做成统⼀的硬件、计算平台资源池

D 不⽤负载应⽤混搭 ,集群利⽤率⾼

149 、Spark ⽣态系统组件 Spark Streaming 的应⽤场景是?

A 、 基于历史数据的数据挖掘

B 、 图结构数据的处理

C 、 基于历史数据的交互式查询

D 基于实时数据流的数据处理

150 、Spark ⽣态系统组件 MLlib 的应⽤场景是?

A 、 图结构数据的处理

B 、 基于历史数据的交互式查询

C 、 复杂的批量数据处理

D 基于历史数据的数据挖掘

151Spark 具有以下哪⼏个主要特点?

A 运⾏速度快

B 容易使⽤

C 通⽤性

D 、 运⾏模式单⼀

152Scala 具有以下哪⼏个主要特点?

A Scala 的优势是提供了 REPLRead-Eval-Print Loop ,交互式解释器 提⾼程序开发效率

B Scala 兼容 Java ,运⾏速度快 ,且能融合到 Hadoop ⽣态圈中

C Scala 具备强⼤的并发性 ,⽀持函数式编程

D Scala 可以更好地⽀持分布式系统 153 、下列哪些选项属于 Hadoop 的缺点?

A 表达能⼒有限

B 磁盘IO 开销⼤

C 延迟⾼

D 在前⼀个任务执⾏完成之前 ,其他任务就⽆法开始 ,难以胜任复杂、 多阶 段的计算任务

154 、下列说法中 ,哪些选项描述正确?

A Spark在借鉴 Hadoop MapReduce优点的同时 ,很好地解决了 MapReduce ⾯临的问题

B Spark 的计算模式也属于 MapReduce ,但不局限于 Map Reduce 操作

CHadoop MapReduce 编程模型⽐ Spark 更灵活

D 、 Hadoop MapReduce 提供了内存计算 ,可将中间结果放到内存中 ,对于迭代 运算效率更⾼

155 、在实际应⽤中 ,⼤数据处理主要包括以下哪三个类型?

A 复杂的批量数据处理:通常时间跨度在数⼗分钟到数⼩时之间

B 基于历史数据的交互式查询:通常时间跨度在数⼗秒到数分钟之间

C 、 基于实时数据流的数据处理:通常时间跨度在数⼗秒到数分钟之间

D 基于实时数据流的数据处理:通常时间跨度在数百毫秒到数秒之间 156 、在实际应⽤中 ,⼤数据处理难免会带来哪些问题?

A 不同场景之间输⼊输出数据⽆法做到⽆缝共享 ,通常需要进⾏数据格式的 转换

B 不同的软件需要不同的开发和维护团队

C 、 需要较⾼的使⽤成本

D ⽐较难以对同⼀个集群中的各个系统进⾏统⼀的资源协调和分配

157 、与 Hadoop MapReduce 计算框架相⽐ ,Spark 所采⽤的 Executor 具有哪些 优点?

A 利⽤多线程来执⾏具体的任务 ,减少任务的启动开销

B Executor 中有⼀个 BlockManager存储模块 ,有效减少 IO 开销

C 、 提供了⼀种⾼度受限的共享内存模型

D 、 不同场景之间输⼊输出数据能做到⽆缝共享 158Spark 运⾏架构具有以下哪些特点?

A 每个Application都有⾃⼰专属的 Executor 进程 ,并且该进程在Application 运⾏期间⼀直驻留

B Executor 进程以多线程的⽅式运⾏ Task

C Spark 运⾏过程与资源管理器⽆关 ,只要能够获取 Executor进程并保持通 信即可

D Task 采⽤了数据本地性和推测执⾏等优化机制

159 、Spark 采⽤ RDD 以后能够实现⾼效计算的原因主要在于?

A 、 ⾼效的容错性

B 中间结果持久化到内存 ,数据在内存中的多个

C 存放的数据可以是 Java对象 ,避免了不必要的对象序列化和反序列化

D 、 现有容错机制:数据复制或者记录⽇志

160Spark ⽀持三种不同类型的部署⽅式 ,包括?

A Standalone(类似于 MapReduce1 .0 slot 为资源分配单位)

B Spark on Mesos(和 Spark有⾎缘关系 ,更好⽀持 Mesos

C Spark on YARN

D 、 Spark on HDFS

161 、下列关于流计算的说法 ,哪项是错误的?

A 、 实时获取来⾃不同数据源的海量数据 ,经过实时分析处理 ,获得有价值的 信息

B 、 流计算秉承⼀个基本理念 , 即 数据的价值随着时间的流逝⽽降低

C 、 对于⼀个流计算系统来说 , 它应该⽀持 TB 级甚⾄是 PB 级的数据规模

D 流计算只需要保证较低的延迟时间 即只达到秒级别即可处理⼀切问题 162 、下列关于数据处理流程 ,说法有误的是? A 、 在传统的数据处理流程中 ,存储的数据是旧的

B 、 在传统的数据处理流程中 ,需要⽤户主动发出查询来获取结果

C 、 传统的数据处理流程 ,需要先采集数据并存储在关系数据库等数据管理系 统中

D 流计算的处理流程⼀般包含三个阶段:数据实时采集、数据批量计算、实时查询服务

163 、下列哪项不属于流计算的处理流程的三个阶段?

A 、 数据实时采集

B 数据批量采集

C 、 数据实时计算

D 、 实时查询服务

164 、下列哪⼀项不属于 Storm 的特点?

A 、 ⽀持各种编程语⾔:Storm ⽀持使⽤各种编程语⾔来定义任务

B 容错性:Storm 需要⼈⼯进⾏故障节点的重启、任务的重新分配

C 、 可扩展性:Storm 的并⾏特性使其可以运⾏在分布式集群中

D 、 免费、开源:Storm 是⼀款开源框架 ,可以免费使⽤ 165 、下列关于 Storm 设计思想 ,描述有误的是?

A Storm Streams 的状态转换过程抽象为 Spout

B 、 Storm 认为每个 Stream 都有⼀个源头 ,并把这个源头抽象为 Spout

CStormSpoutsBolts 组成的⽹络抽象成 Topology

DTopology ⾥⾯的每个处理组件(SpoutBolt)都包含处理逻辑 , ⽽组 件之间的连接则表⽰数据流动的⽅向 166 、下列关于 StormHadoop架构组件功能对应关系 ,哪个是错误的?

AHadoop Job 对应 Storm Topology

BHadoop TaskTracker 对应 Storm Supervisor

C Hadoop JobTracker 对应 Storm Spout

D 、 Hadoop Reduce 对应 Storm Bolt 167 、下⾯哪⼀项不属于 Samza 的系统架构?

A 、 流数据层(Kafka

B 、 执⾏层(YARN

C 、 处理层(Samza API

D 数据采集层(Scribe

168 、下列哪个说法是错误的?

A 、 从编程的灵活性来讲 ,Storm 是⽐较理想的选择 , 它使⽤ Apache Thrift , 可以⽤任何编程语⾔来编写拓扑结构(Topology

B 当有⼤量的状态需要处理时 ⽐如每个分区都有数⼗亿个元组 ,则可以选 Storm Spark Streaming

CSpark Streaming ⽆法实现毫秒级的流计算

D 、 在Spark 上可以统⼀部署 Spark SQLSpark StreamingMLlibGraphX 等组件 ,提供便捷的⼀体化编程模型 169 、下列关于 Storm 的描述 ,有误的是?

A Storm 将流数据 Stream 描述成⼀个有限的 Tuple序列

BStorm 保证每个消息都能完整处理

CStorm 认为每个 Stream 都有⼀个源头 ,并把这个源头抽象为 Spout

DBolt 可以执⾏过滤、 函数操作、Join 、操作数据库等任何操作 170 、下列哪个关于 Stream Groupings 的描述 ,有误的是?

A FieldsGrouping:⼴播发送 ,每⼀个 Task 都会收到所有的 Tuple

BGlobalGrouping:全局分组 ,所有的 Tuple都发送到同⼀个 Task

CNonGrouping:不分组 ,和 ShuffleGrouping 类似 , 当前Task 的执⾏会和 它的被订阅者在同⼀个线程中执⾏

DDirectGrouping:直接分组 ,直接指定由某个 Task 来执⾏Tuple 的处理 171 、流数据具有以下哪些特征?

A 数据快速持续到达 ,潜在⼤⼩也许是⽆穷⽆尽的

B 数据来源众多 ,格式复杂

C 注重数据的整体价值 ,不过分关注个别数据

D 、 系统可以控制将要处理的新到达的数据元素的顺序 172 、下列关于批量计算和实时计算的说法 ,正确的有?

A 批量计算:充裕时间处理静态数据 ,如 Hadoop

B 、 静态数据不适合采⽤批量计算 , 因为它不适合⽤传统的关系模型建模

C 流数据必须采⽤实时计算

D 流数据的响应时间为秒级

173 、对于⼀个流计算系统来说 , 它应达到以下哪些需求?

A ⾼性能:处理⼤数据的基本要求 ,如每秒处理⼏⼗万条数据

B 实时性:保证较低的延迟时间 ,达到秒级别 ,甚⾄是毫秒级别

C 分布式:⽀持⼤数据的基本架构 ,必须能够平滑扩展

D 可靠性:能可靠地处理流数据

174 、下列关于流计算与 Hadoop 的说法 ,正确的有?

A Hadoop 擅长批处理 ,不适合流计算

B MapReduce 是专门⾯向静态数据的批量处理的

C Hadoop 设计的初衷是⾯向⼤规模数据的批量处理

D MapReduce 不适合⽤于处理持续到达的动态数据

175 、下列关于流处理系统与传统的数据处理系统的描述 ,正确的有?

A 流处理系统处理的是实时的数据 ,⽽传统的数据处理系统处理的是预先存 储好的静态数据

B ⽤户通过流处理系统获取的是实时结果 ,⽽通过传统的数据处理系统 ,获 取的是过去某⼀时刻的结果

C 流处理系统⽆需⽤户主动发出查询 ,实时查询服务可以主动将结果推送给 ⽤户

D  统的数据处理系统系统⽆需⽤户主动发出查询 ,批量查询服务可以主动 将结果推送给⽤户

176Storm 具有以下哪些特点?

A 整合性:Storm 可⽅便地与队列系统和数据库系统进⾏整合

B 简易的 APIStorm API在使⽤上即简单⼜⽅便

C 容错性:Storm 可⾃动进⾏故障节点的重启、任务的重新分配

D 可扩展性:Storm 的并⾏特性使其可以运⾏在分布式集群中 177 、 ⽬前 ,Storm 中的 Stream Groupings有如下哪⼏种⽅式?

A AllGrouping:⼴播发送 ,每⼀个 Task 都会收到所有的 Tuple

B GlobalGrouping:全局分组 ,所有的 Tuple都发送到同⼀个 Task

C FieldsGrouping:按照字段分组 ,保证相同字段的 Tuple 分配到同⼀个 Task

DDirectGrouping:随机分组 , 随机分发 Stream 中的 Tuple ,保证每个 BoltTask 接收Tuple 数量⼤致⼀致 178 、下列关于 Storm框架 ,描述正确的有?

A worker:每个 worker 进程都属于⼀个特定的 Topology

B executorexecutor 是产⽣于 worker 进程内部的线程

C task:实际的数据处理由 task 完成

D Topology 的⽣命周期中 ,每个组件的 task数⽬是不会发⽣变化的 ,⽽ executor 的数⽬却不⼀定

179 、下列关于 Spark StreamingStorm 的描述 ,哪些是正确的的?

A Spark Streaming ⽆法实现毫秒级的流计算

B Storm 可以实现毫秒级响应件

CStorm 的低延迟执⾏引擎(100ms+)可以⽤于实时计算

D Spark Streaming 采⽤的⼩批量处理的⽅式使得它可以同时兼容批量和实时数据处理的逻辑和算法

180 、下列关于 Samza 的描述 ,哪些是正确的?

A ⼀个作业(Job)是对⼀组输⼊流进⾏处理转化成输出流的程序

B Samza 的流数据单位既不是 Storm 中的元组 ,也不是 Spark Streaming DStream ,⽽是⼀条条消息

C ⼀个作业会被进⼀步分割成多个任务(Task)来执⾏

D 分区之间没有定义顺序 ,从⽽允许每⼀个任务独⽴执⾏

181 、下列关于数据可视化的描述 ,哪个是错误的?

A 、 数据可视化是指将⼤型数据集中的数据以图形图像形式表⽰

B 、 利⽤数据分析和开发⼯具发现其中未知信息的处理过程

C 、 数据可视化技术的基本思想是将数据库中每⼀个数据项作为单个图元素表 ⽰

D 将数据的各个属性值以⼀维数据的形式表⽰

182 、学习 D3 可视化库需要的⼀些基础知识 ,下列说法错误的是?

A HTML:⽂档对象模型 ,⽤于修改⽂档的内容和结构

BCSS:层叠样式表 ,⽤于设定⽹页的样式

CSVG:可缩放⽮量图形 ,⽤于绘制可视化的图形

DJavaScript:⼀种直译式脚本语⾔ ,⽤于设定⽹页的⾏为 183 、下列选项中 ,哪些不属于 SVG标签的视觉元素?

A 、 矩形

B 、 圆形

C 、 线条

D 图⽚

184 、下列哪个不属于可视化⼯具?

AGoogle Chart API

BD3

CVisual.ly

D Spark

185 、下列说法错误的是?

A 、 ⼤数据魔镜是⼀款优秀的国产数据分析软件 ,可以让⽤户真正理解探索分 析数据

B Tableau 是桌⾯系统中最简单的商业智能⼯具软件 ,是⼀个⽤于⽹页作 图、⽣成互动图形的 JavaScript 函数库

CGoogle Fusion Tables 让⼀般使⽤者也可以轻松制作出专业的统计地图

D 、 Modest Maps 是⼀个⼩型、可扩展、交互式的免费库 ,提供了⼀套查看卫 星地图的 API

186 、下⾯关于 Timetoast 的描述 ,哪个是错误的?

A 、 Timetoast 是在线创作基于时间轴事件记载服务的⽹站

B 、 提供个性化的时间线服务

CTimetoast 基于 flash 平台 ,可以在类似 flash 时间轴上任意加⼊事件

D Timetoast 是⼀个社区类型的时间轴⽹站

187HBase 实际应⽤中的性能优化⽅法不包括下⾯哪⼀项?

A 、 创建表的时候 ,可以通过 HColumnDescriptor .setInMemory(true)将表放 到 Region 服务器的缓存中 ,保证在读取的时候被 cache 命中

B 、 创建表的时候 ,可以通过 HColumnDescriptor .setMaxVersions(int maxVersions)设置表中数据的最⼤版本 ,如果只需要保存最新版本 的数据 ,那 么可以设置 setMaxVersions(1)

C 、 创建表的时候 ,可以通过 HColumnDescriptor .setTimeToLive(int timeToLive)设置表中数据的存储⽣命期

D 如果最近写⼊ HBase 表中的数据是最可能被访问的 ,可以考虑将时间戳作 为⾏键的⼀部分

188 、下列关于可视化⼯具中⾼级分析⼯具的说法 ,错误的是?

AR 是属于 GNU 系统的⼀个⾃由、免费、源代码开放的软件

B Weka 主要⽤于社交图谱数据可视化分析 ,可以⽣成⾮常酷炫的可视化图形

CGephi 主要⽤于社交图谱数据可视化分析 ,可以⽣成⾮常酷炫的可视化图 形

D 、 R 通常⽤于⼤数据集的统计与分析

189 、下⾯关于 D3 的说法 ,哪个是错误的?

AD3 是⼀个被数据驱动的⽂档

B 、 D3 是⼀个JavaScript 的函数库 ,使⽤它主要是⽤来做数据可视化的

CD3 是⼀个JavaScript 函数库 ,并不需要通常所说的"安装"

D D3 有多个⽂件 ,在 HTML 中引⽤即可

190 、在⼤数据时代 ,可视化技术可以⽀持实现哪些⽬标?

A 观测、跟踪数据

B 分析数据

C 辅助理解数据

D 增强数据吸引⼒

191 、信息图表是信息、数据、知识等的视觉化表达 ,下列哪个说法正确?

A ⾕歌公司的制图服务接⼝ Google Chart API ,可以⽤来为统计数据并⾃动⽣成图⽚

B D3 是最流⾏的可视化库之⼀ ,是⼀个⽤于⽹页作图、⽣成互动图形的 JavaScrip函数库

C Visual.ly 可以⽤它来快速创建⾃定义的、样式美观且具有强烈视觉冲击⼒的信息图表

D ⼤数据魔镜是⼀款优秀的国产数据分析软件 它丰富的数据公式和算法可以让⽤户真正理解探索分析数据

192 、下列说法正确的有?

A HTML:超⽂本标记语⾔ ,⽤于设定⽹页的内容

BCSS:⼀种直译式脚本语⾔ ,⽤于设定⽹页的⾏为

C DOM:⽂档对象模型 ,⽤于修改⽂档的内容和结构

D 、 SVG:层叠样式表 ,⽤于设定⽹页的样式

193D3 可以处理哪些类型的数据?

A 数值数组

B 字符串

C 对象(本⾝包含其他数组或键/值对)

D JSON GeoJSON

194 、下列描述正确的有?

A d3.select("body")查找 DOM 中的 body

BselectAll("p")选择 DOM 中的所有段落

C enter()绑定数据和 DOM 元素

D text("New paragraph!")为新创建的 p标签插⼊⼀个⽂本值 195 、下列关于 SVG标签的描述 ,说法正确的有?

A 圆。使⽤ cx cy ,指定指定半径的中⼼的坐标 ,和ŗ表⽰半径

B 线。使⽤ x1 Y1 到指定线的⼀端的坐标 x2 y2指定的另⼀端的坐 标。

C ⽂本。使⽤ x y指定⽂本的位置

D 、 椭圆。使⽤ xy 的指定左上⾓的坐标 ,widthheight指定的尺⼨ 196 、下列关于 SVG性质的描述 ,说法正确的有?

A 描边(stroke -颜⾊值

B 描边宽度(stroke-width -数字(通常以像素为单位)

C SVG 的默认样式是⿊⾊填充

D 不透明度(opacity 0 .0(完全透明)和 1 .0(完全不透明)之间的 数值

197 、下列关于数据可视化的描述 ,正确的有?

A 数据可视化是指将⼤型数据集中的数据以图形图像形式表⽰

B 数据可视化技术的基本思想是将数据库中每⼀个数据项作为单个图元素表

C 利⽤数据分析和开发⼯具发现其中未知信息的处理过程

D 、 将数据的各个属性值以⼀维数据的形式表⽰

198 、下列说法中 ,哪些是正确的?

A CSS:层叠样式表 ,⽤于设定⽹页的样式

B JavaScript:⼀种直译式脚本语⾔ ,⽤于设定⽹页的⾏为

C SVG 标签包含⼀些视觉元素 ,包括矩形 圆形 ,椭圆形 ,线条 ,⽂字和路 径等

D SVG 的默认样式是⿊⾊填充。如果想换颜⾊ ,就必须将样式应⽤到相应的元素

199 、下列说法中 ,哪些是正确的?

A Modest Maps 是⼀个⼩型、可扩展、交互式的免费库

B Leaflet 是⼀个⼩型化的地图框架 ,通过⼩型化和轻量化来满⾜移动⽹页 的需要

C Google Fusion Tables 让⼀般使⽤者也可以轻松制作出专业的统计地图

D ⼤数据魔镜是⼀款优秀的国产数据分析软件 它丰富的数据公式和算法可以让⽤户真正理解探索分析数据

200 、下列说法错误的是?

AUserCF 算法推荐的是那些和⽬标⽤户有共同兴趣爱好的其他⽤户所喜欢的 物品

B 、 ItemCF 算法推荐的是那些和⽬标⽤户之前喜欢的物品类似的其他物品

CUserCF 算法的推荐更偏向个性化

DUserCF 随着⽤户数⽬的增⼤ ,⽤户相似度计算复杂度越来越⾼ 201 、下⾯关于 UserCF 算法和 ItemCF 算法的对⽐ ,哪个是错误的?

AUserCF 算法的推荐更偏向社会化:适合应⽤于新闻推荐、微博话题推荐等 应⽤场景 ,其推荐结果在新颖性⽅⾯有⼀定的优势 BItemCF 算法的推荐更偏向于个性化

C ItemCF 随着⽤户数⽬的增⼤ ,⽤户相似度计算复杂度越来越⾼

DUserCF 推荐结果相关性较弱 ,难以对推荐结果作出解释 ,容易受⼤众影响⽽推荐热门物品

202 、下列哪⼀项不属于⼤数据的应⽤?

A 、 电信⾏业:客户离⽹分析

B 智能机器⼈

C 、 零售⾏业:发现关联购买⾏为、进⾏客户群体细分

D 、 推荐系统

203 、下列关于推荐系统的描述 ,哪⼀项是错误的?

A 、 推荐系统是⼤数据在互联⽹领域的典型应⽤

B 、 推荐系统是⾃动联系⽤户和物品的⼀种⼯具

C 、 推荐系统可以创造全新的商业和经济模式 ,帮助实现长尾商品的销售

D推荐系统分为基于物品的协同过滤和基于商家的协同过滤

204 、下列哪⼀项不属于推荐算法?

A 基于物品和商家的联合协同推荐

B 、 基于统计的推荐

C 、 专家推荐

D 、 基于内容的推荐

205 、下列描述有误的是?

A 、 专家推荐:⼈⼯推荐 , 由资深的专业⼈⼠来进⾏物品的筛选和推荐 ,需要 较多的⼈⼒成本性

B 基于统计的推荐:通过机器学习的⽅法去描述内容的特征 ,并基于内容的 特征来发现与之相似的内容

C 、 协同过滤推荐:应⽤最早和最为成功的推荐⽅法之⼀

D 、 混合推荐:结合多种推荐算法来提升推荐效果

206 、下列哪⼀项不属于完整推荐系统的三个模块之⼀?

A 、 ⽤户建模模块

B 、 推荐对象建模模块

C 、 推荐算法模块

D 数据采集模块

207 、下列关于协同过滤的说法 ,哪⼀项是错误的?

A 、 协同过滤可分为基于⽤户的协同过滤和基于物品的协同过滤

BUserCF 算法符合⼈们对于"趣味相投"的认知 , 即兴趣相似的⽤户往往有 相同的物品喜好

C 实现 UserCF算法的关键步骤是计算物品与物品之间的相似度

D 、 基于物品的协同过滤算法(简称 ItemCF 算法)是⽬前业界应⽤最多的算法 208 、下列哪个说法是错误的? A 、 ⽆论是亚马逊还是 Netflix ,其推荐系统的基础都是 ItemCF 算法

B 、 ItemCF 算法是给⽬标⽤户推荐那些和他们之前喜欢的物品相似的物品

CItemCF 算法主要通过分析⽤户的⾏为记录来计算物品之间的相似度

D 实现 UserCF算法的关键步骤是计算物品与物品之间的相似度

209 、下列哪⼀项说法是错误的?

A 、 UserCF 算法推荐的是那些和⽬标⽤户有共同兴趣爱好的其他⽤户所喜欢的 物品

BItemCF 算法推荐的是那些和⽬标⽤户之前喜欢的物品类似的其他物品

CItemCF 算法的推荐更偏向社会化 ,⽽ UserCF 算法的推荐更偏向于个性化

DItemCF 算法倾向于推荐与⽤户已购买商品相似的商品 ,往往会出现多样性 不⾜、推荐新颖度较低的问题 210 、下列哪些属于⼤数据应⽤?

A 推荐系统:为⽤户推荐相关商品

B 物流:基于⼤数据和物联⽹技术的智能物流

C 智能交通:利⽤交通⼤数据 ,实现交通实时监控

D 汽车:⽆⼈驾驶汽车 ,实时采集车辆各种⾏驶数据和周围环境 211 、下列关于推荐系统集群的描述 ,哪些是正确的?

A 为了让⽤户从海量信息中⾼效地获得⾃⼰所需的信息 ,推荐系统应运⽽⽣

B 推荐系统是⼤数据在互联⽹领域的典型应⽤

C 推荐系统是⾃动联系⽤户和物品的⼀种⼯具

D 推荐系统是利⽤⼤数据为⽤户推荐消费内容、调整线下门店布局、控制店内⼈流量

212 、下列关于推荐长尾理论的描述 ,哪些是正确的?

A 推荐系统可以创造全新的商业和经济模式 ,帮助实现长尾商品的销售

B "长尾"概念于 2004年提出 ,⽤来描述以亚马逊为代表的电⼦商务⽹站的商业和经济模式

C 可以通过发掘长尾商品并推荐给感兴趣的⽤户来提⾼销售额

D 热门推荐的主要缺陷在于推荐的范围有限 ,所推荐的内容在⼀定时期内也 相对固定。⽆法实现长尾商品的推荐

213 、推荐系统的本质是建⽴⽤户与物品的联系 ,根据推荐算法的不同 ,推荐 ⽅法包括以下哪⼏类?

A 专家推荐:⼈⼯推荐 由资深的专业⼈⼠来进⾏物品的筛选和推荐 ,需要 较多的⼈⼒成本

B 基于统计的推荐:基于统计信息的推荐(如热门推荐 易于实现 ,但对 ⽤户个性化偏好的描述能⼒较弱

C 基于内容的推荐:通过机器学习的⽅法去描述内容的特征 ,并基于内容的 特征来发现与之相似的内容

D 混合推荐:结合多种推荐算法来提升推荐效果 214 、⼀个完整的推荐系统通常包括以下哪三个模块?

A ⽤户建模模块

B 、 数据采集模块

C 推荐对象建模模块

D 推荐算法模块

215 、下列关于推荐系统的描述 ,哪些是正确的?

A ⽤户建模模块:对⽤户进⾏建模 ,根据⽤户⾏为数据和⽤户属性数据来分 析⽤户的兴趣和需求

B 推荐对象建模模块:根据对象数据对推荐对象进⾏建模

C 推荐算法模块:基于⽤户特征和物品特征 ,采⽤推荐算法计算得到⽤户可能感兴趣的对象

D 推荐算法模块:根据推荐场景对推荐结果进⾏⼀定调整 ,将推荐结果最终 展⽰给⽤户

216 、协同过滤可分为哪⼏种过滤⽅式?

A 基于⽤户的协同过滤

B 基于物品的协同过滤

C 基于⽤户和物品的联合协同过滤

D 、 基于商家的协同过滤

217 、关于基于⽤户的协同过滤 ,下列哪些说法是正确的?

A 基于⽤户的协同过滤算法(简称 UserCF 算法)在 1992 年被提出 ,是推荐 系统中最古⽼的算法

B UserCF 算法符合⼈们对于"趣味相投"的认知

C 、 实现 UserCF算法的关键步骤是计算⽤户与⽤户之间的兴趣相似度

D UserCF 算法符合兴趣相似的⽤户往往有相同的物品喜好

218 、实现 UserCF算法的关键步骤是计算⽤户与⽤户之间的兴趣相似度 ,下列 哪些是属于计算相似度的算法?

A 泊松相关系数

B 余弦相似度

C 调整余弦相似度

D 、 调整正弦相似度

219 、下列关于协同过滤算法的描述 ,哪些是正确的?

A 基于物品的协同过滤算法(简称 ItemCF 算法)是⽬前业界应⽤最多的算法

B ItemCF 算法是给⽬标⽤户推荐那些和他们之前喜欢的物品相似的物品

C ItemCF 算法通过建⽴⽤户到物品倒排表(每个⽤户喜欢的物品的列表)来 计算物品相似度

D UserCF 算法推荐的是那些和⽬标⽤户有共同兴趣爱好的其他⽤户所喜欢的 物品

220 、下列关于 BigTable 的描述 ,哪个是错误的?

A 爬⾍持续不断地抓取新页⾯ ,这些页⾯每隔⼀段时间地存储到 BigTable

BBigTable 是⼀个分布式存储系统

CBigTable 起初⽤于解决典型的互联⽹搜索问题

D 、 ⽹络搜索应⽤查询建⽴好的索引 ,从 BigTable得到⽹页

221 、下列选项中 ,关于 HBaseBigTable 的底层技术对应关系 ,哪个是错误 的?

A GFS Zookeeper

BGFSHDFS

C 、 MapReduce 与 Hadoop MapReduce

DChubbyZookeeper

222 、在 HBase 中 ,关于数据操作的描述 ,下列哪⼀项是错误的?

A 、 HBase 则采⽤了更加简单的数据模型 , 它把数据存储为未经解释的字符串

BHBase 操作不存在复杂的表与表之间的关系

C HBase 操作只有简单的插⼊、查询、删除、清空等

DHBase 在设计上就避免了复杂的表和表之间的关系 223 、在 HBase 访问接⼝中 , Pig 主要⽤在哪个场合?

A 适合做数据统计

B 、 适合 HBase 管理使⽤

C 、 适合其他异构系统在线访问 HBase 表数据

D 、 适合 Hadoop MapReduce 作业并⾏批处理 HBase 表数据

224HBase 中需要根据某些因素来确定⼀个单元格 ,这些因素可以视为⼀个"四维坐标" ,下⾯哪个不属于"四维坐标"

A 关键字

B 、 ⾏键

C 、 列族

D 、 时间戳

225 、关于 HBase 的三层结构中各层次的名称和作⽤的说法 ,哪个是错误的?

A Zookeeper⽂件记录了⽤户数据表的 Region位置信息

B-ROOT-表记录了 . META .表的 Region位置信息

C 、 . META .表保存了 HBase 中所有⽤户数据表的 Region位置信息

DZookeeper⽂件记录了-ROOT-表的位置信息

226 、下⾯关于主服务器 Master主要负责表和 Region 的管理⼯作的描述 ,哪 个是错误的?

A 实现相同 Region 服务器之间的负载均衡⾏

B 、 在 Region 分裂或合并后 ,负责重新调整 Region 的分布

C 、 对发⽣故障失效的 Region 服务器上的 Region 进⾏迁移

D 、 管理⽤户对表的增加、删除、修改、查询等操作

227HBase 实际应⽤中的性能优化⽅法不包括下⾯哪⼀项?

A 、 创建表的时候 ,可以通过 HColumnDescriptor .setInMemory(true)将表放 到 Region 服务器的缓存中 ,保证在读取的时候被 cache 命中

B 、 创建表的时候 ,可以通过 HColumnDescriptor .setMaxVersions(int maxVersions)设置表中数据的最⼤版本 ,如果只需要保存最新版本 的数据 ,那 么可以设置 setMaxVersions(1)

C 、 创建表的时候 ,可以通过 HColumnDescriptor .setTimeToLive(int timeToLive)设置表中数据的存储⽣命期

D 如果最近写⼊ HBase 表中的数据是最可能被访问的 ,可以考虑将时间戳作 为⾏键的⼀部分

228 、 HBase 只有⼀个针对⾏健的索引 ,如要要访问 HBase 表中的⾏ ,下⾯哪种 ⽅式是不可⾏的?

A 、 通过单个⾏健访问

B 通过时间戳访问

C 、 通过⼀个⾏健的区间来访问

D 、 全表扫描

229 、下⾯关于 Region 的说法 ,哪个是错误的?

A 、 同⼀个 Region 不会被分拆到多个 Region 服务器

B 、 为了加快访问速度 , . META .表的全部 Region都会被保存在内存中

C ⼀个-ROOT-表可以有多个 Region

D 、 为了加速寻址 ,客户端会缓存位置信息 , 同时 ,需要解决缓存失效问题

230 、关系数据库已经流⾏很多年 ,并且 Hadoop 已经有了 HDFSMapReduce , 为什么需要 HBase

A Hadoop 可以很好地解决⼤规模数据的离线批量处理问题 ,但是 ,受限于 Hadoop MapReduce编程框架的⾼延迟数据处理机制 ,使得

Hadoop ⽆法满⾜⼤ 规模数据实时处理应⽤的需求上

B HDFS ⾯向批量访问模式 ,不是随机访问模式

C 传统的通⽤关系型数据库⽆法应对在数据规模剧增时导致的系统扩展性和性能问题

D 传统关系数据库在数据结构变化时⼀般需要停机维护;空列浪费存储空间 231HBase 与传统的关系数据库的区别主要体现在以下哪 ⼏个⽅⾯?

A 数据类型

B 数据操作

C 存储模式

D 数据维护

232HBase 访问接⼝类型包括哪些?

A Native Java API

B HBase Shell

C Thrift Gateway

D REST Gateway

233 、下列关于数据模型的描述 ,哪些是正确的?

A HBase 采⽤表来组织数据 ,表由⾏和列组成 ,列划分为若⼲个列族

B 每个 HBase 表都由若⼲⾏组成 ,每个⾏由⾏键(row key)来标识

C 列族⾥的数据通过列限定符(或列)来定位

D 每个单元格都保存着同⼀份数据的多个版本 ,这些版本采⽤时间戳进⾏索

234HBase 的实现包括哪三个主要的功能组件?

A 库函数:链接到每个客户端

B ⼀个 Master 主服务器

C 许多个 Region 服务器

D 、 部署在廉价的计算机集群中

235HBase 的三层结构中 , 三层指的是哪三层?

A Zookeeper ⽂件

B -ROOT-

C . META .

D 、 数据类型

236HBase 性能监视主要包括以下哪⼏⽅⾯?

A Master-status(⾃带)

B Ganglia

C OpenTSDB

D Ambari

237Zookeeper 是⼀个很好的集群管理⼯具 ,被⼤量⽤于分布式计算 , 它主要 提供什么服务?

A 配置维护

B 域名服务

C 分布式同步

D 组服务

238 、下列关于 Region 服务器⼯作原理的描述 ,哪些是正确的?

A 每个 Region 服务器都有⼀个⾃⼰的 HLog⽂件

B 每次刷写都⽣成⼀个新的 StoreFile ,数量太多 ,影响查找速度

C 合并操作⽐较耗费资源 ,只有数量达到⼀个阈值才启动合并

D Store Region 服务器的核⼼

239 、下列关于 HLog ⼯作原理的描述 ,哪些是正确的?

A 分布式环境必须要考虑系统出错。HBase 采⽤ HLog保证

B HBase 系统为每个 Region 服务器配置了⼀个 HLog ⽂件

C Zookeeper会实时监测每个 Region 服务器的状态

D Master ⾸先会处理该故障 Region 服务器上⾯遗留的 HLog⽂件 240 、下列关于图结构数据的描述 ,错误的是?

A 许多⾮图结构的⼤数据 ,通常会被转换为关系模型后进⾏分析

B 、 许多⼤数据都是以⼤规模图或⽹络的形式呈现

C 、 图数据结构很好地表达了数据之间的关联性

D 、 关联性计算是⼤数据计算的核⼼

241 、下⾯哪个细节是⽤户通过⽹页监控看不到的?

A 关于出度分布的柱状图

B 、 处于活跃状态的边数量

C 、 在当前超步的时间信息和消息流量

D 、 所有⽤户⾃定义Aggregator 的值

242 、在 Pregel 计算模型中 , 图中的每个顶点会对应⼀个计算单元 ,下列哪⼀ 项不属于计算单元的成员变量? A 、 顶点值(Vertex value):顶点对应的 PR

B 、 出射边(Out edge):只需要表⽰⼀条边 ,可以不取值

C 、 消息(Message):传递的消息

D ⼊射边(Iut edge):只需要表⽰⼀条边 ,可以不取值

243 、采⽤ MapReduce实现 PageRank 的计算过程包括三个阶段 ,下列哪⼀项是 错的?

A 、 第⼀阶段:解析⽹页

B 、 第⼆阶段:PageRank 分配

C 、 第三阶段:收敛阶段

D 第⼀阶段:收集⽹页

244 、下列关于 PageRank算法在 MapReduce 中的实现的描述 ,错误的是?

A 解析⽹页的任务就是分析⼀个页⾯的链接数 ,但是不赋初值

B 、 PageRank 分配就是多次迭代计算页⾯的 PageRank

C 、 收敛阶段的任务就是由⼀个⾮并⾏组件决定是否达到收敛

D 、 ⼀般判断是否收敛的条件是所有⽹页的 PageRank值不再变化 ,或者运⾏30 次以后我们就认为已经收敛了 245 、下列哪个不属于 PageRank算法在 PregelMapReduce 中实现⽅式的区 别?

A 、 Pregel 将 PageRank 处理对象看成是连通图 ,⽽ MapReduce 则将其看成是 键值对

BPregel 将计算细化到顶点 , 同时在顶点内控制循环迭代次数

CapReduce 将计算批量化处理 ,按任务进⾏循环迭代控制

D 图算法如果⽤ Pregel 实现 ,需要⼀系列的 Pregel 的调⽤ 246 、下列哪项不属于在 Vetex 类中的值类型参数?

A 顶点的出度

B 、 顶点

C 、 边

D 、 消息

247 、在每个超步中 ,Worker 调⽤顶点上的 Compute()函数 ,下列哪个参数是 不需要传递?

A 、 该顶点的当前值

B 、 ⼀个接收到的消息的迭代器

C 、 ⼀个出射边的迭代器

D ⼀个⼊射边的迭代器

248 、下列哪⼀项不属于每个超步的组件?

A 全局计算

B 、 局部计算

C 、 通讯

D 、 栅栏同步

249 、在⼀个 Worker 中 , 它所管辖的分区的状态信息是保存在内存中的 ,下列 哪⼀项不属于分区的状态信息? A 、 顶点的当前值

B 、 消息队列

C 、 标志位

D ⼀个接收到的消息的迭代器

250 、很多传统的图计算算法都存在以下哪些典型问题?

A 常常表现出⽐较差的内存访问局部性

B 针对单个顶点的处理⼯作过少

C 计算过程中伴随着并⾏度的改变

D 、 计算过程简易

251 、针对⼤型图(⽐如社交⽹络和⽹络图)的计算问题 ,哪些说法是正确 的?

A 为特定的图应⽤定制相应的分布式实现:通⽤性不好

B 基于现有的分布式计算平台进⾏图计算:在性能和易⽤性⽅⾯往往⽆法达 到最优

C 使⽤单机的图算法库 ,但是 ,在可以解决的问题的规模⽅⾯具有很⼤的局限性

D 使⽤已有的并⾏图计算系统 ,但是 ,对⼤规模分布式系统⾮常重要的⼀些 ⽅⾯(⽐如容错 ⽆法提供较好的⽀持

252 、针对⼤型图的计算 , ⽬前通⽤的图计算软件主要哪些?

A 基于遍历算法的、实时的图数据库 ,如 Neo4j OrientD

B DEX Infinite Graph

B 以图顶点为中⼼的、基于消息传递批处理的并⾏引擎 ,如 GoldenOrb Giraph Pregel Hama

C 、 基于遍历算法的、实时的图数据库 ,如 GoldenOrb 、Giraph 、 Pregel 和 Hama

D 、 以图顶点为中⼼的、基于消息传递批处理的并⾏引擎 ,如 Neo4jOrientD

BDEXInfinite Graph

253 、⼀次 BSP(Bulk Synchronous Parallel Computing Model ,⼜称"⼤同 步"模型)计算过程包括⼀系列全局超步(所谓的超步就是计算中 的⼀次迭 代) ,每个超步主要包括哪些组件?

A 局部计算:每个参与的 处理器都有⾃⾝的计算任务

B 通讯:处理器群相互交换数据

C 栅栏同步:当⼀个处理器遇到"路障"(或栅栏 会等到其他所有处理 器完成它们的计算步骤

D 、 基于现有的分布式计算平台进⾏图计算 254 、下列说法正确的是?

A Pregel 执⾏计算过程时 ,在每个超步中都会并⾏调⽤每个顶点上定义的 Compute()函数

B 、 顶点之间的通讯是借助于消息传递机制来实现的

C 、 在默认情况下 , Pregel 计算框架并不会开启 Combiner 功能

D 、 通常只对那些满⾜交换律和结合律的操作才可以去开启 Combiner 功能 255 、在 Pregel 计算框架中 , 图的保存格式多种多样 ,具体包 括哪些?

A ⽂本⽂件

B 关系数据库

C 键值数据库

D 、 语⾳⽂件

256 、下列对于 Pregel 的执⾏过程 ,哪些是正确的?

A 选择集群中的多台机器执⾏图计算任务 ,每台机器上运⾏⽤户程序的⼀个副本

B Master 把⼀个图分成多个分区 ,并把分区分配到多个 Worker

C ster 会把⽤户输⼊划分成多个部分 ,通常是基于⽂件边界进⾏划分

D ster 向每个 Worker 发送指令 Worker 收到指令后 开始运⾏⼀个超步

257 、在⼀个 Worker 中 , 它所管辖的分区的状态信息是保存在内存中的 ,分区 中的顶点的状态信息包括?

A 顶点的当前值

B 以该顶点为起点的出射边列表 ,每条出射边包含了⽬标顶点 ID 和边的值

C 消息队列 ,包含了所有接收到的、发送给该顶点的消息

D 标志位 ,⽤来标记顶点是否处于活跃状态

258 、在每个超步中 ,Worker 会对⾃⼰所管辖的分区中的每个顶点进⾏遍历 , 并调⽤顶点上的 Compute()函数 ,在调⽤时 ,会把以下哪些 参数传递进去?

A 该顶点的当前值

B ⼀个接收到的消息的迭代器

C ⼀个出射边的迭代器

D 、 标志位 ,⽤来标记顶点是否处于活跃状态 259 、下列说法正确的有?

A Pregel ,为了获得更好的性能 "标志位"和输⼊消息队列是分开保 存的

B 在超步 S 当⼀个 Worker 在进⾏顶点处理时 ,⽤于当前超步的消息会被 处理

C 需要两个消息队列⽤于存放作⽤于当前超步 S 的消息和作⽤于下⼀个超步 S+1 的消息

D 每个 Worker 上都保存了⼀个或多个分区的状态信息 当⼀个 Worker 发⽣ 故障时 它所负责维护的分区的当前状态信息就会丢失

⼤数据技术 ⼤数据技术-题库 题库 ⼤数据技术-题库 1、第⼀次信息化浪潮主要解决什么问题? A、 信息传输 B、 信息处理 C、 信息爆炸 D、 信息转换 2、下⾯哪个选项属于⼤数据技术的"数据存储和管理"技术层⾯的功能? A、 利⽤分布式⽂件系统、数据仓库、关系数据库等实现对结构化、半结构化 和⾮结构化海量数据的存储和管理 B、 利⽤分布式并⾏编程模型和计算框架,结合机器学习和数据挖掘算法,实 现对海量数据的处理和分析 C、 构建隐私数据保护体系和数据安全体系,有效保护个⼈隐私和数据安全 D、 把实时采集的数据作为流计算系统的输⼊,进⾏实时处理分析 3、在⼤数据的计算模式中,流计算解决的是什么问题? A、 针对⼤规模数据的批量处理 B、 针对⼤规模图结构数据的处理 C、 ⼤规模数据的存储管理和查询分析 D、 针对流数据的实时计算 4、⼤数据产业指什么? A、 ⼀切与⽀撑⼤数据组织管理和价值发现相关的企业经济活动的集合 B、 提供智能交通、智慧医疗、智能物流、智能电⽹等⾏业应⽤的企业 C、 提供数据分享平台、数据分析平台、数据租售平台等服务的企业 D、 提供分布式计算、数据挖掘、统计分析等服务的各类企业 5、下列哪⼀个不属于⼤数据产业的产业链环节? A、 数据存储层 B、 数据源层 C、 数据分析层 D、 数据应⽤层 6、下列哪⼀个不属于 IT 领域最新的技术发展趋势? A、 互联⽹ B、 云计算 C、 ⼤数据 D、 物联⽹ 7、云计算平台层(PaaS)指的是什么? A、 操作系统和围绕特定应⽤的必需的服务 B、 将础设施(计算资源和存储)作为服务出租 C、 从⼀个集中的系统部署软件,使之在⼀台本地计算机上(或从云中远程地) 运⾏的⼀个模型 D、 提供硬件、软件、⽹络等础设施以及提供咨询、规划和系统集成服务 8、云计算数据中⼼是什么? A、 数据中⼼是云计算的重要载体,为各种平台和应⽤提供运⾏⽀撑环境 B、 提供智能交通、智慧医疗、智能物流、智能电⽹等 C、 提供分布式计算、数据挖掘、统计分析等服务 D、 提供硬件、软件、⽹络等础设施 9、下列哪个不属于物联⽹的应⽤? A、 智能物流 B、 智能安防 C、 环保监测 D、 数据采集 10、下列哪项不属于⼤数据的发展历程? A、 成熟期 B、 萌芽期 C、 ⼤规模应⽤期 D、 迷茫期 11、第三次信息化浪潮的标志是什么? A、 个⼈计算机 B、 物联⽹ C、 云计算和⼤数据 D、 互联⽹ 12、信息科技为⼤数据时代提供哪些技术⽀撑? A、 存储设备容量不断增加 B、 ⽹络带宽不断增加 C、 CPU 处理能⼒⼤幅提升 D、 数据量不断增⼤ 13、⼤数据具有哪些特点? A、 数据的"⼤量化" B、 数据的"快速化" C、 数据的"多样化" D、 数据的"价值化" 14、下⾯哪个属于⼤数据的应⽤领域? A、 智能医疗研发 B、 监控⾝体情况 C、 实时掌握交通状况 D、 ⾦融交易 15、⼤数据的两个核⼼技术是什么? A、 分布式存储 B、 数据处理与分析 C、 分布式处理 D、 数据存储与管理 16、云计算关键技术包括什么? A、 分布式存储 B、 虚拟化 C、 分布式计算 D、 多租户 17、云计算的服务模式和类型包括哪些? A、 软件即服务(SaaS) B、 平台即服务(PaaS) C、 础设施即服务(IaaS) D、 数据即服务(DaaS) 18、物联⽹主要由下列哪些部分组成的? A、 应⽤层 B、 处理层 C、 感知层 D、 ⽹络层 19、物联⽹的关键技术包括哪些? A、 识别和感知技术 B、 ⽹络与通信技术 C、 数据挖掘与融合技术 D、 信息处理⼀体化技术 20、⼤数据对社会发展的影响有哪些? A、 ⼤数据成为⼀种新的决策⽅式 B、 ⼤数据应⽤促进信息技术与各⾏业的深度融合 C、 ⼤数据开发推动新技术和新应⽤的不断涌现 D、 ⼤数据使得数据科学家成为热门职业 21、下列哪个不属于 Hadoop 的特性? A、 成本⾼ B、 ⾼可靠性 C、 ⾼容错性 D、 运⾏在 Linux 平台上 22、Hadoop 框架中最核⼼的设计是什么? A、 为海量数据提供存储的 HDFS 和对数据进⾏计算的 MapReduce B、 提供整个 HDFS ⽂件系统的 NameSpace(命名空间)管理、块管理等所有服务 C、 Hadoop 不仅可以运⾏在企业内部的集群中,也可以运⾏在云计算环境中 D、 Hadoop 被视为事实上的⼤数据处理标准 23、在⼀个本的 Hadoop 集群中,DataNode 主要负责什么? A、 存储被拆分的数据块 B、 协调数据计算任务 C、 负责协调集群中的数据存储 D、 负责执⾏由 JobTracker 指派的任务 24、Hadoop 最初是由谁创建的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小鸭文库

你的鼓励是我前进的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值