本人期末自行整理复习资料,存在些许错误,正在修改,如有发现请及时提醒。
第一章:绪论
-
数据密集型计算是对 海量的、非结构化的、快速增长 的数据进行分析和处理
-
数据密集型计算的应用领域包括 教育领域、医疗领域、交通领域
-
数据密集型计算包括对数据的 获取、分析和理解、管理
-
“信息雪崩”现象是指随着大数据时代的到来,不断产生大量 结构化、半结构化、非结构化 的信息
-
云计算根据需求不提供的服务模式是 HaaS
大数据给经典的计算机体系结构带来的挑战方面包括 计算部件、存储部件、网络部件 -
当前的数据密集型计算呈现出 多样化的格、严格的时间限制、复杂的底层分布构架 特点
-
数据密集型计算在系统结构方面面临的最大挑战是 存储超大规模数据量、提高存储系统与计算系统之间的带宽、访问容错
-
数据密集型计算是指能推动 计算机科学 发展的对海量和高速变化的数据的获取、管理、分析和理解
-
支持数据密集型计算这种并行处理的有关软硬件技术包括 分布式计算框架、多核处理器、高性能计算集群、大规模存储系统
-
数据密集型应用:
数据密集型应用是指那些需要处理大量数据和大量输人/输出的应用,这类应用要处理的数据量较大,它们把大部分执行时间用于数据的处理和输入/输出上。
-
计算密集型应用:
计算密集型应用是指那些需要大量计算资源和计算的应用,这类应用往往处理的数据量较小,但需要大量的计算,它们把大部分执行时间花费在计算上而不是数据的输入/输出上。
-
高性能计算:
高性能计算(HPC)通常是一个计算机集群系统,通过各种互连技术将多个计算机系统连接在一起,利用所有相连接系统的综合计算能力来处理大型计算问题,所以又称为高性能计算集群。
-
云计算:
云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供。云计算建立在一个高效的、高度自动化的、虚拟化的IT 基础架构上。
-
云存储:
云存储是一种网络在线存储(Online Storage)模式即把数据存放在通常由第三方托管的多台虚拟服务器上。
第四章:MapReduce模型
MapReduce
-
不属于MapReduce库的输入格式的是 二进制输入
-
不是Map端的工作流的是 数据输出
-
以下关于map和reduce端工作流程描述
错误的是:Map任务将其输出结果写入内存中
正确的是:
-
当Map任务运行在有相应数据分片的节点上时性能达到最佳
-
Shuffle & sort主要描述数据从map任务输出到reduce任务输入的过程,并确保每个reduce任务的输入都按键排序。
-
当所有map输出被复制完成后,reduce任务进入排序阶段。如果map输出小于内存,输出结果被复制到reduce工作节点的内存,否则被复制到磁盘
-
-
错误的是: 任意格式的输入文件都可以作为MapReduce作业的数据初始存储
正确的是:
-
MapReduce由map和reduce两个阶段组成,每个阶段包括数据输入,计算处理,数据输出三个步骤。
-
MapReduce模型将MapReduce作业分成若干个任务来执行,其中MapReduce作业作为客户端执行的个工作单元。
-
主节点内部含有一个http服务器,用输出MapReduce执行的状态报告,状态信息页面之包含了计算执行的进度。
-
-
区默认大小为100MB,当缓冲区数据到达闽值,启动 溢出写 线程
-
属于Reduce输出结果的格式是 文本输出、二进制输出、延迟输出
-
MapReduce模型工作机制中,Reduce端的任务流程
复制阶段—聚合阶段—Reducer的输入文件—写入输出文件
-
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。以下选项中是MapReduce模型的优点 接口化、数据分析低延迟、扩展性强
-
MapReduce的Shuffle过程中最后做的操作是 合并
-
MapReduce采用的作业调度算法包括 FIFO、能力调度算法、公平调度算法
-
一个 MapReduce 作业由 Map 和 Reduce 两个阶段组成,每一个阶段包括 数据输入、计算处理 和 数据输出 三个步骤,其中每一个阶段的输出数据被当作下一阶段的输入数据。
-
MapReduce模型将作业分成若干 任务 来执行,其中MapReduce作业作为客户端执行的一个工作单元,主要包括传输数据, 计算 和配置信息,任务主要包括Map和Reduce两类。
-
任意格式的输入文件都可作为MapReduce作业的 输入 在文件被处理之前,MapReduce库首先将输入文件划分为M片,每片通常16~64MB,然后再将每个数据片保存在 分布式文件系统 ,在集群形成多份拷贝
-
MapReduce作业首先为每个分片构建一个 Map 任务,由该任务来运行使用者自定义的 Map 函数,进而处理分片中的每条记录。
-
在MapReduce作业执行过程中,大多数Map任务和Reduce任务的执行均基于不同的 结点 ,而且多数Reduce任务执行时需要 跨结点 去读取其他节点上的Map任务的结果。
-
在MapReduce中负载平衡机制包括 数据本地化、动态分区、动态调度 和计数器四个方面
-
在MapReduce中用于作业调度算法有 FIFO调度器、公平调度器、容量调度器 和HOD。
-
MapReduce容错机制一般可分为三种: 任务容错 主节点容错、和 数据容错
-
简述 MapReduce 的工作流程中的 Map 阶段、Shuffle & Sort 阶段和 Reduce 阶段的主要任务
- Map:数据输入、Partition、数据溢出写、聚合阶段、写入本地存储器
- Shuffle & Sort: 主要描述数据从 Map 任务输出到 Reduce 任务输人的过程,并确保每个Reducer 任务的输人都按键排序。
- Reduce:复制阶段、聚合阶段、Reducer输入文件、写入输出文件
-
在MapReduce阶段有哪些可以优化的点:
数据本地化、动态分区、动态调度、计数器
-
简述溢出写过程:
每个Map 任务都有一个环形内存缓冲区,用于暂存Map的输出结果,但是当Map 任务的输出结果超出内存的存储能力时,需要在一定条件下将缓冲区中的数据临时写人磁盘,然后重新利用这块缓冲区。这个从内存向磁盘写数据的过程称为溢出写,溢出写是由后台单独线程来完成,不影响 Map 结果写入缓冲区的线程。
-
简述任务本地化调度过程
- Job Tracker 收到Map任务,首先检查该任务的数据块是否已经缓存在本地节点上。
- 如果已经缓存在本地节点上,Job Tracker将该任务分配给该节点上的Task Tracker执行
- 如果未缓存在本地节点上,Job Tracker将该任务分配给距离最近节点上的Task Tracker执行
Hadoop
-
在HDFS中,put命令用于 将文件或者目录从本地文件系统拷贝到HDFS
-
在HDFS中,get命令用于 将文件从HDFS拷贝到本地文件系统
-
属于Hadoop可以运行的模式有 单机(本地)模式、伪分布式模式、分布式模式
-
Hadoop支持的分布式文件系统包括 HTFP HIVE
-
Hadoop的工作流由客户端