Hadoop知识点总结

Hadoop分布式文件系统与并行处理框架详解

最新推荐文章于 2024-04-27 19:57:45 发布

mm_bit

最新推荐文章于 2024-04-27 19:57:45 发布

阅读量1.9k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据 hadoop 文章标签： hadoop

本文链接：https://blog.youkuaiyun.com/mm_bit/article/details/50203229

大数据同时被 2 个专栏收录

30 篇文章

订阅专栏

hadoop

14 篇文章

订阅专栏

之前自己在慕课网在线学习了关于hadoop的初步知识，在此记录一下：

hadoop主要是由两部分构成：1、HDFS，负责存储，为分布式文件系统；2、MapReduce，是并行处理框架，用于实现任务的分解和调度。

hadoop的优势：1、高扩展：通过添加硬件来实现性能的提升，扩充容量。2、低成本：只需要普通PC机即可，不需高端硬件。3、成熟的生态圈：周边开源工具丰富：有Hive、HBase（其中Hive是把SQL查询转换为MapReduce任务执行，HBase则是分布式数据库）。

查看Hadoop的文件系统目录：hadoop fs-ls（新版的为dfs fs-ls)

hadoop中主要有两种结点类型：

NameNode：管理节点，用于存放文件元数据，其中包括1、文件与数据块的映射表；2、数据块与数据节点的映射表。

DataNode：工作节点，用于存放真正的数据块。

默认每个数据块有3个副本a,b,c,其中a和b放在同一个机架上的不同节点上，c放在不同机架上的某个节点上。这样做是为了防止某DataNode或者某机架损坏后，可以从其他DataNode中得到副本，用于恢复。

心跳检测：DataNode会定期向NameNode发送心跳消息，NameNode好确定某时段内哪些DataNode处于Active状态。

二级NameNode（SecondNameNode）：是NameNode的替换副本，定期同步元数据映像文件和修改日志，若NameNode损坏失效，则二级NameNode将代替。

HDFS读文件的流程：1、客户端向NameNode发请求；2、NameNode将该文件的数据块所在的DataNode位置返回给客户端；3、客户端向相应的DataNode读文件。

HDFS写文件的流程：1、客户端将文件分块（分为多个数据块）；2、NameNode为客户端分配DataNode；3、客户端将第一个数据块写入DataNode；4、传递式复制该数据块到不同的DataNode和不同的机架上；5、客户端开始写入第二个数据块。。。。6、待所有数据块写完之后，给NameNode更新元数据。

HDFS的特点：1、数据冗余，硬件容错。2、流式的数据访问（写一次，读多次，无法随机修改，只能删了原来的块，重新追加写块）；3、适合存储大文件（若是小文件，则NameNode的元数据负载量太大）。

本地文件上传到HDFS： hadoop fs -put 文件名 HDFS的存放目录

从HDFS上下载文件：hadoop fs -get 文件名本地存放目录

查看文件系统的所有信息：hadoop dfsadmin -report

hadoop中，MapReduce和HDFS都有通信的需求，所以需要对通信的对象进行序列化，Hadoop没有采用Java的序列化，而是使用自己定义的Writable接口，该接口定义了两个方法write和readFields，分别为把对象序列化和反序列化。

Hadoop2.0：新机制：yarn。

Jobcracker在分配map任务时，会考虑数据的本地化因素。选取一个距离其输入分片文件最近的tasktracker。最理想的情况下，任务是数据本地化的（即任务运行在输入分片所在的节点上），或者其次是任务运行在输入分片所在的同一机架上。但是对于reduce任务，jabtracker只从待运行的reduce任务列表中选取下一个来执行，不会考虑数据的本地化。

MapReduce1中，tasktrackers会设置固定数量的槽。每个任务在一个槽上运行，槽有最大内存分配限制，导致当任务使用较少内存时无法充分利用内存（比如该任务只用了一个槽的1/10，那剩下的9/10就浪费了，其他等待的任务不能使用这些未使用的内存）以及忧郁任务不能获取足够内存而导致作业失败。而在MapReduce2中的yarn中，资源分为更细的粒度，应用程序可以请求最小到最大限制范围的任意最小值倍数的内存容量。

任务执行：首先将任务需要的资源本地化，包括作业的jar文件，配置文件以及所有来自分布式缓存的文件（这些都在HDFS上）。最后，运行map任务或者reduce任务。

作业的调度：

MapReduce1：1、默认是基于队列的FIFO调度器。2、公平调度器：每个用户有自己的作业池，支持抢占机制。提交作业数较多的用户，不会因此而获得更多的集群资源。如果一个池在特定的一段时间内未能公平共享资源，就会中止运行池中得到过多资源的任务，把空出来的任务槽让给运行资源不足的作业池。3、容量调度器：每个队列内部，采用FIFO方式（考虑优先级）

其中2和3的区别：3是队列内部采用FIFO，2则是强调池内公平共享，使运行的作业共享池的资源。

map输出文件位于运行map任务的tasktracker的本地磁盘。

map任务的数量等于输入文件被划分为块的数量。reduce的数量等于paritioner分区的数量。

默认的partitioner是HashPartitioner，它对每条记录的键进行哈希操作以决定该记录应该属于哪个分区，每个分区对应一个reduce任务。

JobTracker的角色：1、任务调度；2、分配任务给task，监控任务执行制度（tasktracker会定时给Jobtracker汇报）；3、监控Tasktracker的状态。

Tasktracker的角色：1、执行任务；2、向JobTracker汇报任务状态。

MapReduce的容错机制：1、重复执行（默认4次）；2、推测执行。