大数据架构期末复习 Mapreduce、Hadoop、内存计算、BSP模型

本文链接：https://blog.youkuaiyun.com/Likely_X/article/details/136666496

本人期末自行整理复习资料，存在些许错误，正在修改，如有发现请及时提醒。

第一章：绪论

数据密集型计算是对海量的、非结构化的、快速增长的数据进行分析和处理
数据密集型计算的应用领域包括教育领域、医疗领域、交通领域
数据密集型计算包括对数据的获取、分析和理解、管理
“信息雪崩”现象是指随着大数据时代的到来，不断产生大量结构化、半结构化、非结构化的信息
云计算根据需求不提供的服务模式是 HaaS
大数据给经典的计算机体系结构带来的挑战方面包括计算部件、存储部件、网络部件
当前的数据密集型计算呈现出多样化的格、严格的时间限制、复杂的底层分布构架特点
数据密集型计算在系统结构方面面临的最大挑战是存储超大规模数据量、提高存储系统与计算系统之间的带宽、访问容错
数据密集型计算是指能推动计算机科学发展的对海量和高速变化的数据的获取、管理、分析和理解
支持数据密集型计算这种并行处理的有关软硬件技术包括分布式计算框架、多核处理器、高性能计算集群、大规模存储系统
数据密集型应用：

数据密集型应用是指那些需要处理大量数据和大量输人/输出的应用，这类应用要处理的数据量较大,它们把大部分执行时间用于数据的处理和输入/输出上。
计算密集型应用：

计算密集型应用是指那些需要大量计算资源和计算的应用,这类应用往往处理的数据量较小,但需要大量的计算，它们把大部分执行时间花费在计算上而不是数据的输入/输出上。
高性能计算：

高性能计算(HPC)通常是一个计算机集群系统,通过各种互连技术将多个计算机系统连接在一起,利用所有相连接系统的综合计算能力来处理大型计算问题,所以又称为高性能计算集群。
云计算：

云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供。云计算建立在一个高效的、高度自动化的、虚拟化的IT 基础架构上。
云存储：

云存储是一种网络在线存储(Online Storage)模式即把数据存放在通常由第三方托管的多台虚拟服务器上。

第四章：MapReduce模型

MapReduce

不属于MapReduce库的输入格式的是二进制输入
不是Map端的工作流的是数据输出
以下关于map和reduce端工作流程描述

错误的是：Map任务将其输出结果写入内存中

正确的是：
- 当Map任务运行在有相应数据分片的节点上时性能达到最佳
- Shuffle & sort主要描述数据从map任务输出到reduce任务输入的过程，并确保每个reduce任务的输入都按键排序。
- 当所有map输出被复制完成后，reduce任务进入排序阶段。如果map输出小于内存，输出结果被复制到reduce工作节点的内存，否则被复制到磁盘
错误的是：任意格式的输入文件都可以作为MapReduce作业的数据初始存储

正确的是：
- MapReduce由map和reduce两个阶段组成，每个阶段包括数据输入，计算处理，数据输出三个步骤。
- MapReduce模型将MapReduce作业分成若干个任务来执行，其中MapReduce作业作为客户端执行的个工作单元。
- 主节点内部含有一个http服务器，用输出MapReduce执行的状态报告，状态信息页面之包含了计算执行的进度。
区默认大小为100MB，当缓冲区数据到达闽值，启动溢出写线程
属于Reduce输出结果的格式是文本输出、二进制输出、延迟输出
MapReduce模型工作机制中，Reduce端的任务流程

复制阶段—聚合阶段—Reducer的输入文件—写入输出文件
MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。以下选项中是MapReduce模型的优点接口化、数据分析低延迟、扩展性强
MapReduce的Shuffle过程中最后做的操作是合并
MapReduce采用的作业调度算法包括 FIFO、能力调度算法、公平调度算法
一个 MapReduce 作业由 Map 和 Reduce 两个阶段组成，每一个阶段包括数据输入、计算处理和数据输出三个步骤，其中每一个阶段的输出数据被当作下一阶段的输入数据。
MapReduce模型将作业分成若干任务来执行，其中MapReduce作业作为客户端执行的一个工作单元，主要包括传输数据，计算和配置信息，任务主要包括Map和Reduce两类。
任意格式的输入文件都可作为MapReduce作业的输入在文件被处理之前,MapReduce库首先将输入文件划分为M片，每片通常16~64MB，然后再将每个数据片保存在分布式文件系统，在集群形成多份拷贝
MapReduce作业首先为每个分片构建一个 Map 任务，由该任务来运行使用者自定义的 Map 函数，进而处理分片中的每条记录。
在MapReduce作业执行过程中，大多数Map任务和Reduce任务的执行均基于不同的结点，而且多数Reduce任务执行时需要跨结点去读取其他节点上的Map任务的结果。
在MapReduce中负载平衡机制包括数据本地化、动态分区、动态调度和计数器四个方面
在MapReduce中用于作业调度算法有 FIFO调度器、公平调度器、容量调度器和HOD。
MapReduce容错机制一般可分为三种：任务容错主节点容错、和数据容错
简述 MapReduce 的工作流程中的 Map 阶段、Shuffle & Sort 阶段和 Reduce 阶段的主要任务
- Map：数据输入、Partition、数据溢出写、聚合阶段、写入本地存储器
- Shuffle & Sort：主要描述数据从 Map 任务输出到 Reduce 任务输人的过程，并确保每个Reducer 任务的输人都按键排序。
- Reduce：复制阶段、聚合阶段、Reducer输入文件、写入输出文件
在MapReduce阶段有哪些可以优化的点：

数据本地化、动态分区、动态调度、计数器
简述溢出写过程：

每个Map 任务都有一个环形内存缓冲区,用于暂存Map的输出结果，但是当Map 任务的输出结果超出内存的存储能力时,需要在一定条件下将缓冲区中的数据临时写人磁盘,然后重新利用这块缓冲区。这个从内存向磁盘写数据的过程称为溢出写,溢出写是由后台单独线程来完成,不影响 Map 结果写入缓冲区的线程。
简述任务本地化调度过程
- Job Tracker 收到Map任务，首先检查该任务的数据块是否已经缓存在本地节点上。
- 如果已经缓存在本地节点上，Job Tracker将该任务分配给该节点上的Task Tracker执行
- 如果未缓存在本地节点上，Job Tracker将该任务分配给距离最近节点上的Task Tracker执行