
Hadoop
一米多的李同学
快乐得像个孩子!
展开
-
一、Hadoop介绍
一、Hadoop概述1、Hadoop是一个可靠的、可扩展的、分布式系统基础架构。2、创始人:Doug Cutting 和Mike二、Hadoop的版本1、Hadoop1.0:HDFS和MapReduce2、Hadoop2.0:完全重构的一套系统,不兼容1.0。包含了HDFS、MapReduce和Yarn3、Hadoop3.0:包含了HDFS、MapReduce、Yarn以及Ozone...原创 2019-04-09 18:01:13 · 153 阅读 · 0 评论 -
二、Hadoop伪分布式的安装方式
一、Hadoop的安装方式1、单机安装。除了MapReduce模块以外,其他的都不能使用。2、伪分布式安装。利用一台主机模拟Hadoop的运行环境,可以使用Hadoop的所有模块。3、全分布式安装。在真正的集群上去安装Hadoop。二、伪分布式的安装1、关闭防火墙 service iptables stop2、修改主机名。在Hadoop集群中,主机名中不允许出现_以及-,如果出现...原创 2019-04-09 18:25:35 · 126 阅读 · 0 评论 -
三、HDFS简介
一、HDFS简述:1、Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。2、本身是用来存储数据的,当存储较大文件的时候会对文件进行切换。二、HDFS的体系结构1、NameNode:管理整个文件的元数据。2、DataNode:负责管理用户的文件数据块。3、Secondary NameNode用来监控hdfs状态的...原创 2019-04-09 20:25:06 · 422 阅读 · 0 评论 -
四、HDFS技术细节
一、BlockHDFS在存储数据的时候是将数据进行切块,分别存储到不同的节点上。在Hadoop1.0版本中,每一个block默认是64M大小,在Hadoop2.0版本中,每一个block默认是128M大小400M - 4 - 其中前3块,每一块是128M,第4块是16M100M - 1 - 文件块按照实际大小100M存储好处:1、利于大文件的存储2、方便传输3、便于计算二、Nam...原创 2019-04-28 13:42:17 · 351 阅读 · 0 评论 -
五、HDFS基本操作
一、SecondaryNameNode合并过程1、将edits和fsimages文件通过网络拷贝到SecondaryNameNode上,2、在namenode上产生一个edits.new记录合并期间的操作,3、拷贝完成之后,fsimage就会将其中的数据保存到SecondaryNameNode的内存中,4、将edits的操作更新到SecondaryNameNode的内存中,5、更新完成后...原创 2019-04-28 13:48:35 · 588 阅读 · 0 评论 -
六、MapReduce简介
一、MapReduce简述MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,MapReduce是面向大数据并行处理的计算模型、框架和平台,作用为拆分数据,合并数据。MapReduce的组成1、JobTracker/ResourceManager:管理任务2、TaskTracker/NodeManager:执行任务二、序列化/反序列化机制.当自定义一个类之后,如...原创 2019-04-28 13:59:30 · 639 阅读 · 0 评论 -
七、MapReduce应用
一、MapReduce的组成1、JobTracker/ResourceManager:管理任务2、TaskTracker/NodeManager:执行任务二、ShuffleMapTask1、获取到切片(FileSplit)信息2、每一个切片对应一个MapTask3、读取具体的数据块(Block)4、按行读取数据5、每一行数据会调用一次map方法,进行处理6、map方法在执行完...原创 2019-04-28 14:08:40 · 276 阅读 · 0 评论 -
八、yarn简述
一、yarn是Hadoop提供的一共用于进行资源调度和任务管理的框架。注意:1、如果有多个Task,那么会scheduler中形成资源队列,队列中存储的是Container。2、如果资源队列已满,这个时候来的新任务会被阻塞3、如果多个任务同时申请资源,那么一般默认MapTask会优先申请一个节点中会有一个Nodemanager,意味着一个NodeManager将会执行不只一个Task...原创 2019-05-08 21:40:46 · 252 阅读 · 0 评论