
Hadoop
有风微冷
奋发向上
展开
-
HDFS架构概述
HDFS采用master/slave架构,由一个namenode和一定数目的datanode构成;namenode:是一个中心服务器,负责管理文件系统的命名空间以及客户端对文件的访问。存储文件的元数据,以及每个文件的块列表和块所在的datanode 1)管理HDFS的名称空间 2) 配置副本策略 3)...原创 2019-07-26 20:16:25 · 257 阅读 · 0 评论 -
Yarn的工作原理
Yarn是在hadoop2.x引入的一个新特性。是一个资源调度调度平台,它也只提供资源调度,这样 一来HDFS负责存储,MR负责计算,三者之间互有联系,却又相互独立,耦合性降低。这样一来意味着yarn上可以运行各类的分布式计算程序。YARN的工作原理:(作业提交机制见:https://blog.youkuaiyun.com/qq_36770189/article/details/1001319...原创 2019-08-29 10:02:38 · 2534 阅读 · 0 评论 -
Hadoop中的序列化和反序列化
1.什么是序列化和反序列化 序列化就是把内存中的对象,转换成字节序列或其他数据传输协议,以便于存储和网络传输。 反序列化就是将收到的字节序列或其他网络传输协议和硬盘的持久化数据,转换成内存中的对象。2.为什么不使用Java的序列化? 因为Java的序列化是一个重量的序列化,一个对象被序列化之后,附带了很多额外的信息(检验码,继承体系等),不便于在网络中高效传输,所...原创 2019-08-18 15:28:56 · 372 阅读 · 0 评论 -
Hadoop中各阶段优化方法介绍
1.合并小文件 在执行MR任务之前,合并小文件。如果有大量的小文件,会产生大量的map任务,map任务的装载次数增大,任务的装载比较耗时,从而导致MR运行较慢。可以使用CombinFileInputFormat来 作为输入,解决输入端有大量的小文件2.减少spill次数:调整io.sort.mb和sort.spill.percent参数值,增大触发spill的内存上限,减少磁盘io,...原创 2019-08-18 16:10:59 · 211 阅读 · 0 评论 -
HadoopHA 中JournalNode 作用
在hadoopHA中两个namenode节点为了数据同步会通过Journalnode相互通信。JournalNode存储管理EditsLog,俩个namenode共享这个EditsLog,两个NameNode都可以读取Edits;但EditsLog只有Active状态的NameNode节点可以做写操作;...原创 2019-07-27 10:30:00 · 2683 阅读 · 0 评论 -
HDFS优缺点
HDFS优缺点优点1、副本机制,所以数据更安全2、因为是分布式存储,所以适合批处理3、高可用行4、元数据持久化5、禁掉了一些功能,使得集群更加完美 1. 修改 2. 文件一旦上传成功,就不能修改block块的大小缺点1、无法毫秒级的读写数据 1. 读写复杂需要找nn请求 2. 形成管道,文件切割block...原创 2019-07-17 15:24:31 · 126 阅读 · 0 评论 -
HDFS读写流程
HDFS写流程详细步骤:1.HDFS client会向NameNode发出写文件的请求,通过过RPC与NameNode建立连接。2.namenode检查是否已经存在该文件、检查权限。若通过检查,namenode返回可以写入的DataNode信息(注:WAL,write ahead log,先写进Log,再写内存。因为EditLog记录的是最新的HDFS客户端执行所有的写操作,如...原创 2019-07-10 17:18:59 · 800 阅读 · 0 评论 -
为什么要格式化namenode以及注意点
格式化namenode的命令 hdfs namenode -format前提知识: 在NameNode节点上,有两个来自于配置文件的最重要的路径,它们对应的属性分别是dfs.name.dir和dfs.name.edits.dir,分别被用来存储元数据信息和操作日志。同时,它们默认的路径均是/tmp/hadoop/dfs/name。格式化namenode都发生了什么:1.清空dfs...原创 2019-07-26 22:04:29 · 4446 阅读 · 0 评论 -
YARN架构
YARN的基本思想是将资源管理和作业调度/监视的功能分解为单独的守护进程。应用程序可以是单个作业,也可以是作业的DAG。ResourceManager和NodeManager构成了数据计算框架。ResourceManager(RM): 1)处理来自客户端的请求 2)监控NodeManager 3) 启动或监...原创 2019-07-26 21:21:23 · 497 阅读 · 0 评论 -
HDFS文件系统元数据的持久化
EditLog:由namenode管理的事务日志,任何对元数据的修改操作如:在HDFS上创建文件、修改文件的副本系数等操作,namenode都会向EditLog插入一条记录。‘’(存在于Namenode所在的本地文件系统上。)FsImage:整个hdfs的名字空间,存储着数据块到文件的映射、文件的属性等。(存在于Namenode所在的本地文件系统上。)如何持久化:1、当Namenode启动时...原创 2019-07-26 20:32:42 · 1090 阅读 · 0 评论 -
YARN的作业提交机制
Yarn的工作原理见https://blog.youkuaiyun.com/qq_36770189/article/details/100131123(1)作业提交第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。第2步:Client向RM申请一个作业id。第3步:RM给Client返回该job资源的提交路径和作业id。第4步:Cli...原创 2019-08-29 10:06:06 · 644 阅读 · 0 评论