
hadoop
多么哇塞的陈哇塞
慢慢积累慢慢学习慢慢填充慢慢慢慢
展开
-
ZooKeeper中使用watch的注意事项有哪些?
使用watch需要注意的几点: ① Watches通知是一次性的,必须重复注册. ② 发生CONNECTIONLOSS之后,只要在session_timeout之内再次连接上(即不发生 SESSIONEXPIRED),那么这个连接注册的watches依然在。 ③ 节点数据的版本变化会触发NodeDataChanged,注意,这里特意说明了是版本变化。存在 这样的情况,只要成功执行了setData()方法,无论内容是否和之前一致,都会触发 NodeDataChanged。 .原创 2021-05-29 22:30:43 · 559 阅读 · 0 评论 -
MapReduce怎么解决数据均衡问题,如何确定分区号?
数据均衡问题指的就是某个节点或者某几个节点的任务运行的比较慢,拖慢了整个Job的进度。 实际上数据均衡问题就是数据倾斜问题,解决方案同解决数据倾斜的方案。 MapReduce中分区默认是按hashcode来分的,用户可以自定义分区类,需要继承系统的Partitioner 类,重写getPartition()方法即可...原创 2021-05-29 22:20:11 · 325 阅读 · 0 评论 -
Hadoop中RecordReader的作用是什么
(1)以怎样的方式从分片中读取一条记录,每读取一条记录都会调用RecordReader类; (2)系统默认的RecordReader是LineRecordReader (3)LineRecordReader是用每行的偏移量作为map的key,每行的内容作为map的value; (4)应用场景:自定义读取每一条记录的方式;自定义读入key的类型,如希望读取的key是 文件的路径或名字而不是该行在文件中的偏移量。 ...原创 2021-05-29 22:14:37 · 1352 阅读 · 0 评论 -
Yarn 实现 ResourceManager HA
Hadoop 2.4.0版本开始,Yarn 实现了 ResourceManager HA 由于资源使用情况和 NodeManager 信息都可以通过 NodeManager 的心跳机制重新构建 出来,因此只需要对 ApplicationMaster 相关的信息进行持久化存储即可。 在一个典型的 HA 集群中,两台独立的机器被配置成 ResourceManger。在任意时间,有且 只允许一个活动的 ResourceManger,另外一个备用。切换分为两种方式: 手动切换:在自动原创 2021-05-29 22:05:39 · 515 阅读 · 0 评论 -
Namenode挂了怎么办?
方法一:将SecondaryNameNode中数据拷贝到namenode存储数据的目录; 方法二:使用-importCheckpoint选项启动namenode守护进程,从而将SecondaryNameNode 中数据拷贝到namenode目录中。原创 2021-05-29 21:58:58 · 901 阅读 · 0 评论 -
SecondaryNameNode 工作机制
先上图,上图1)第一阶段:namenode启动 (1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动, 直接加载编辑日志和镜像文件到内存。 (2)客户端对元数据进行增删改的请求 (3)namenode记录操作日志,更新滚动日志。 (4)namenode在内存中对数据进行增删改查 2)第二阶段:Secondary NameNode工作 (1)Secondary NameNode询问name...原创 2021-05-29 21:53:42 · 153 阅读 · 0 评论 -
简述Hadoop的几个默认端口及其含义。
1)dfs.namenode.http-address:50070 2)SecondaryNameNode辅助名称节点端口号:50090 3)dfs.datanode.address:50010 4)fs.defaultFS:8020 或者9000 5)yarn.resourcemanager.webapp.address:8088原创 2021-05-29 21:42:20 · 1163 阅读 · 0 评论 -
关于连接HaDoop拒绝连接主机路由的解决办法(之一)
最近看了一些网络上博客大佬关于HaDoop拒绝连接的方法,本人深受触动和更深此的学习到了其中骨髓,哈哈,是净水,精!髓!首先先检查主机的host'na'm原创 2021-05-28 19:18:37 · 6741 阅读 · 0 评论 -
mapreduce推测执行算法及原理
mapreduce推测执行算法及原理1)作业完成时间取决于最慢的任务完成时间一个作业由若干个Map任务和Reduce任务构成。因硬件老化、软件Bug等,某些任务可能运行 非常慢。典型案例:系统中有99%的Map任务都完成了,只有少数几个Map老是进度很慢,完不成,怎么办?2)推测执行机制: 发现拖后腿的任务,比如某个任务运行速度远慢于任务平均速度。为拖后腿任务启动一个备份任务,同时运行。谁先运行完,则采用谁的结果。 3)执行推测任务的前提条件 (1...原创 2021-04-22 23:35:25 · 545 阅读 · 0 评论 -
Hadoop的调度器总结
Hadoop的调度器总结。Hadoop作业调度器主要有三种:FIFO、Capacity Scheduler和Fair Scheduler。 Hadoop2.7.2默认的资源调度器是Capacity Scheduler。 :yarn-default.xml文件<property> <description>The class to use as the resource scheduler.</description> ..原创 2021-04-22 22:44:16 · 158 阅读 · 0 评论 -
hadoop实现join的几种方法及每种方法的实现
hadoop实现join的几种方法及每种方法的实现1)reduce side join Map端的主要工作:为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用 连接字段作为key,其余部分和新加的标志作为value,最后进行输出。 Reduce端的主要工作:在reduce端以连接字段作为key的分组已经完成,我们只需要在每一个 分组当中将那些来源于不同文件的记录(在map阶段已经打标志)分开,最后进行合并就ok了。 2)map join 在ma...原创 2021-04-22 22:10:04 · 431 阅读 · 0 评论 -
Hadoop的联邦机制
Hadoop的联邦机制1.1 为什么会出现联邦? Hadoop的NN所使用的资源受所在服务的物理限制,不能满足实际生产需求。2.1联邦的实现采用多台NN组成联邦。NN是独立的,NN之间不需要相互调用。NN是联合的,同属于一个联邦,所管理的DN作为block的公共存储。如图:图中概念: • block pool的概念,每一个namespace都有一个pool,datanodes会存储集群中所有的pool,block pool之间的管理是独...原创 2021-04-22 22:00:43 · 392 阅读 · 0 评论 -
关于Namenode HA和yurn HA
关于Namenode HA和yurn HA了解如下:HA(High Available), 高可用,是保证业务连续性的有效解决方案,一般有两个或两个以上的节 点,分为 活动节点 ( Active )及 备用节点 ( Standby) )。用于实现业务的不中断或短暂中断NN 是 HDFS 集群的单点故障点.在 HA 具体实现方法不同情况下,HA 框架的流程是一致的, 不一致的就是如何存储、管理、同步 edits 编辑日志文件。 QJM/Qurom Journal Manager,基本.原创 2021-04-22 21:32:59 · 125 阅读 · 1 评论