Hadoop基础面试精选

最新推荐文章于 2024-05-14 10:47:19 发布

原创

最新推荐文章于 2024-05-14 10:47:19 发布 · 465 阅读

1 ·

CC 4.0 BY-SA版权

Hadoop基础面试精选

1、Hadoop1.x和Hadoop2.x的区别：
   a、1.x:Common（辅助工具）、HDFS(数据存储)、MapReduce(计算+资源调度)
   b、2.x:Common（辅助工具）、HDFS(数据存储)、MapReduce(计算)、Yarn(资源调度)
   答：在hadoop1.x时代中，hadoop中的mapreduce同时处理业务逻辑运算和资源调度，耦合性较大，
       在hadoop2.x时代中，增加了yarn。分担了1.x版本的资源调度的工作，mapreduce只负责计算，性能也有所提升。

2、NameNode(NN)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成文件时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。
DataNode(DN):在本地文件系统存储文件块数据，以及块数据的校验和。
Secondary NameNode（2NN）：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。
                           并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务，
                           辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode。
                           在紧急情况下，可辅助恢复NameNode。
Yarn（资源调度）：包括 RM（resourceManager所有机器的资源的分配和调度）、NM（NodeManager 管理某个服务器的资源）、AM(applicationMaster负责数据的切分，为应用程序申请资源并分配给内部
                   的任务，任务的监控和容错)、Container(是yarn的资源抽象，封装了某个节点上的多维度资源，如内存、cpu、磁盘、网络等)

3、MapReduce：map阶段并行处理数据
           reduce阶段对map结果进行汇总

4、HDFS的优缺点：
   优点：a、高容错性
           1)数据自动保存多个副本。通过增加副本的形式，提高容错性
           2)某一个副本丢失以后，它可以自动恢复
       b、适合处理大数据
           1)数据规模：能够处理数据规模达到GB、TB，甚至PB级别的数据
           2)文件规模：能够处理百万规模以上的文件数量，数量相当之大
       c、可构建在廉价机器上、通过多副本机制，提高可靠性。
   缺点：a、不适合低延时数据访问，比如毫秒级的存储数据，是做不到的
       b、无法高校的对大量小文件进行存储
           1)存储大量小文件的话，它会占用NameNode大量的内存来存储文件目录和块信息，是不可取的，因为NameNode的内存总是有限的。
           2)小文件存储的寻址时间会超过读取时间（小文件量大，导致遍历的时间就长），违反了HDFS的设计目标。
       c、不支持并发写入，文件随机修改。
           1)一个文件只能有一个写，不允许多个线程同时写；
           2)只支持数据append(追加)，不支持文件的随机修改。

5、寻址时间：HDFS中找到目标文件块（block）所需要的时间。
原理：
   文件块越大，寻址时间越短，但磁盘传输时间越长；
   文件块越小，寻址时间越长，但磁盘传输时间越短。
一、为什么HDFS中块（block）不能设置太大，也不能设置太小？
   1. 如果块设置过大，
        一方面，从磁盘传输数据的时间会明显大于寻址时间，导致程序在处理这块数据时，变得非常慢；
        另一方面，mapreduce中的map任务通常一次只处理一个块中的数据，如果块过大运行速度也会很慢。
   2. 如果块设置过小，
        一方面存放大量小文件会占用NameNode中大量内存来存储元数据，而NameNode的内存是有限的，不可取；
       另一方面文件块过小，寻址时间增大，导致程序一直在找block的开始位置。
   因而，块适当设置大一些，减少寻址时间，那么传输一个由多个块组成的文件的时间主要取决于磁盘的传输速率。
二、 HDFS中块（block）的大小为什么设置为128M？
   1. HDFS中平均寻址时间大概为10ms；
   2. 经过前人的大量测试发现，寻址时间为传输时间的1%时，为最佳状态；
        所以最佳传输时间为10ms/0.01=1000ms=1s
   3. 目前磁盘的传输速率普遍为100MB/s；
        计算出最佳block大小：100MB/s x 1s = 100MB
        所以我们设定block大小为128MB。
   ps：实际在工业生产中，磁盘传输速率为200MB/s时，一般设定block大小为256MB
        磁盘传输速率为400MB/s时，一般设定block大小为512MB

6、HDFS namenode容错机制
   1 远程备份组成元数据持久状态的文件
       将持久状态写入本地磁盘的同时，写入一个远程的网络文件系统NFS（网络文件系统Network File System，NFS），操作是实时且原子性的
       搭建DFS共享网络文件系统，即使A服务器磁盘坏了，也不影响B服务器提供服务。
   2 运行secondary namenode(辅助namenode)
       辅助namenode主要是合并edits和fsimage，并保存合并后的fsimage
       namenode出现故障时，启用辅助namenode，因为辅助namenode上的fsimage未包含最近的edits文件，所以一般是将远程NFS上的元数据信息拷贝到辅助namenode上作为主namenode运行
   一，NameNode
   HDFS集群有两类节点以管理者和工作者的工作模式运行，namenode就是其中的管理者。它管理着文件系统的命名空间，维护着文件系统树及整棵树的所有文件和目录。这些信息以两个文件的形式保存于内存或者磁盘，这两个文件是：命名空间镜像文件fsimage和编辑日志文件edit logs ，同时namenode也记录着每个文件中各个块所在的数据节点信息。

   namenode对元数据的操作过程

   图中有两个文件：
   （1）fsimage:文件系统映射文件，也是元数据的镜像文件（磁盘中），存储某段时间namenode内存元数据信息。
   （2）edits log:操作日志文件。
   这种工作方式的特点：
   （1）namenode始终在内存中存储元数据（metedata）,使得“读操作”更加快、
   （2）有“写请求”时，向edits文件写入日志，成功返回后才修改内存，并向客户端返回。
   （3）fsimage文件为metedata的镜像，不会随时同步，与edits合并生成新的fsimage。

   从以上特点可以知道，edits文件会在集群运行的过程中不断增多，占用更多的存储空间，虽然有合并，但是只有在namenode重启时才会进行。并且在实际工作环境很少重启namenode，
   这就带来了一下问题：
   （1）edits文件不断增大，如何存储和管理？
   （2）因为需要合并大量的edits文件生成fsimage，导致namenode重启时间过长。
   （3）一旦namenode宕机，用于恢复的fsiamge数据很旧，会造成大量数据的丢失。

   二，Secondary NameNode
   上述问题的解决方案就是运行辅助namenode–Secondary NameNode，为主namenode内存中的文件系统元数据创建检查点，Secondary NameNode所做的不过是在文件系统中设置一个检查点来帮助NameNode更好的工作。它不是要取代掉NameNode也不是NameNode的备份，
   SecondaryNameNode有两个作用，一是镜像备份，二是日志与镜像的定期合并。两个过程同时进行，称为checkpoint（检查点）。
   镜像备份的作用：备份fsimage(fsimage是元数据发送检查点时写入文件)；
   日志与镜像的定期合并的作用：将Namenode中edits日志和fsimage合并,防止如果Namenode节点故障，namenode下次启动的时候，会把fsimage加载到内存中，应用edits log,edits log往往很大，导致操作往往很耗时。（这也是namenode容错的一套机制）

Secondary NameNode创建检查点过程

   Secondarynamenode工作过程
   （1）SecondaryNameNode通知NameNode准备提交edits文件，此时主节点将新的写操作数据记录到一个新的文件edits.new中。
   （2）SecondaryNameNode通过HTTP GET方式获取NameNode的fsimage与edits文件（在SecondaryNameNode的current同级目录下可见到 temp.check-point或者previous-checkpoint目录，这些目录中存储着从namenode拷贝来的镜像文件）。
   （3）SecondaryNameNode开始合并获取的上述两个文件，产生一个新的fsimage文件fsimage.ckpt。
   （4）SecondaryNameNode用HTTP POST方式发送fsimage.ckpt至NameNode。
   （5）NameNode将fsimage.ckpt与edits.new文件分别重命名为fsimage与edits，然后更新fstime，整个checkpoint过程到此结束。
   SecondaryNameNode备份由三个参数控制fs.checkpoint.period控制周期（以秒为单位，默认3600秒），fs.checkpoint.size控制日志文件超过多少大小时合并（以字节为单位，默认64M）， dfs.http.address表示http地址，这个参数在SecondaryNameNode为单独节点时需要设置。
   从工作过程可以看出，SecondaryNameNode的重要作用是定期通过编辑日志文件合并命名空间镜像，以防止编辑日志文件过大。SecondaryNameNode一般要在另一台机器上运行，因为它需要占用大量的CPU时间与namenode相同容量的内存才可以进行合并操作。它会保存合并后的命名空间镜像的副本，并在namenode发生故障时启用。

SecondaryNameNode的namesecondary/current目录和主namenode的current目录的布局相同。
   好处：在主namenode发生故障时（假设没有及时备份数据），可以从SecondaryNameNode恢复数据。
   2.故障恢复方法
       方法一：将SecondaryNameNode中数据拷贝到namenode存储数据的目录；
       方法二：使用-importCheckpoint选项启动namenode守护进程，从而将SecondaryNameNode用作新的主namenode。

如果手动的话，在生产上采用安全模式（safe mode） hdfs dfsadmin 命令去开启安全模式

计算切片问题
   129M的文件分成2块存储（在集群中的HDFS）
   本地模式中默认的blocksize：32M，集群模式是128M。
   while (((double) bytesRemaining)/splitSize > 1.1) {}
   默认的切片splitSize是128M。129/128 小于1.1，则就切成一片（一个mapTask任务线程）
   141M/128M 刚好大于 1.1 那么就分为两片，两个mapTask任务数去执行

YARN中一些术语：
两个独立的守护进程：RM和AM
resource manager