- 博客(4)
- 资源 (2)
- 收藏
- 关注
原创 Flink总结
Flink总结1.Filnk的几种部署模式 1.locol模式:单机测试用 开发不会用 2.standalone模式 以自身的master和slaves搭建集群模式,flink自身进行调度. 3.yarn模式 有Hadoop的yarn进行资源调度,有两种模式:session-cluster模式和per-job-cluster模式 session-cluster模式:首先会在yarn上初始化一个flink集群,根据提交参数,开辟出指定的资源,然后每次提交的任务都由这个flink集群管理
2020-11-27 23:28:35
371
原创 CheckPoint执行机制详解
CheckPoint执行机制详解本文将对Checkpoint的执行流程逐步拆解进行分析:CheckPointCoordinator:整个checkpoint的发起者,由Jobmanger管理着source:数据源sink:数据sinkmap:算子HDFS:checkpoint存储地第一步:checkpoint coordinator 向所有的source节点,trigger checkPoint如下图:第二步:每个source节点向下游所有task广播barrier,这个barrier
2020-11-26 21:41:59
1686
原创 MapReduce之自定义OutPutFormat
MapReduce之自定义OutPutFormatOutputFormat接口实现类 OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口。下面介绍几种常见的OutputFormat实现类: 1.文本输出TextoutputFormat 默认的输出格式是TextOutputFormat,它把每条记录写为文本行。它的键和值可以是任意类型,因为TextOutputFormat调用toString()方法把它们转换为字符串。 2.Se
2020-08-15 20:37:29
195
原创 hadoop优化
Hadoop优化1.MapReduce跑的慢的原因MapReduce程序效率的瓶颈在于两点:1.1 计算机性能 cup 、内存、磁盘健康、网络1.1 I/O操作优化 (1)数据倾斜 (2)Map和Reduce数据设置不合理 (3)Map运行时间太长,导致Reduce等待过久 (4)小文件过多 (5)大量的不可切片的超大压缩文件 (6)Spill次数过多 (7)Merge次数过多等2.MapReduce优化方法 MapReduce优化方法主要从六个方面考虑:数据输
2020-08-15 20:33:31
153
MapReduce之自定义OutPutFormat.md
2020-08-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人