Ronin_man-优快云博客

原创 Flink总结

Flink总结1.Filnk的几种部署模式 1.locol模式:单机测试用开发不会用 2.standalone模式以自身的master和slaves搭建集群模式,flink自身进行调度. 3.yarn模式有Hadoop的yarn进行资源调度,有两种模式:session-cluster模式和per-job-cluster模式 session-cluster模式:首先会在yarn上初始化一个flink集群,根据提交参数,开辟出指定的资源,然后每次提交的任务都由这个flink集群管理

2020-11-27 23:28:35 432

原创 CheckPoint执行机制详解

CheckPoint执行机制详解本文将对Checkpoint的执行流程逐步拆解进行分析:CheckPointCoordinator:整个checkpoint的发起者,由Jobmanger管理着source:数据源sink:数据sinkmap:算子HDFS:checkpoint存储地第一步:checkpoint coordinator 向所有的source节点,trigger checkPoint如下图:第二步:每个source节点向下游所有task广播barrier,这个barrier

2020-11-26 21:41:59 1810

原创 MapReduce之自定义OutPutFormat

MapReduce之自定义OutPutFormatOutputFormat接口实现类 OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口。下面介绍几种常见的OutputFormat实现类: 1.文本输出TextoutputFormat 默认的输出格式是TextOutputFormat，它把每条记录写为文本行。它的键和值可以是任意类型，因为TextOutputFormat调用toString()方法把它们转换为字符串。 2.Se

2020-08-15 20:37:29 226

原创 hadoop优化

Hadoop优化1.MapReduce跑的慢的原因MapReduce程序效率的瓶颈在于两点:1.1 计算机性能 cup 、内存、磁盘健康、网络1.1 I/O操作优化 (1)数据倾斜 (2)Map和Reduce数据设置不合理 (3)Map运行时间太长,导致Reduce等待过久 (4)小文件过多 (5)大量的不可切片的超大压缩文件 (6)Spill次数过多 (7)Merge次数过多等2.MapReduce优化方法 MapReduce优化方法主要从六个方面考虑：数据输

2020-08-15 20:33:31 224

MapReduce之自定义OutPutFormat.md

MapReduce之自定义 OutPutFormat,通过一个案例,实现自定义的一个OutPutFormat,来更加的深刻的理解MR的过程

2020-08-12

hadoop优化.md

Hadoop优化以及MR跑的慢的原因和MR优化的一些方法,Hadoop对于小文件的优化方法,以及一些解决方案

2020-08-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人