MR的Uber模式
目标:了解MR的Uber模式的配置及应用
实施
- Spark为什么要比MR要快
- MR慢
- 只有Map和Reduce阶段,每个阶段的结果都必须写入磁盘
- 如果要实现Map1 -> Map2 -> Reduce1 -> Reduce2
- Mapreduce1:Map1
- MapReduce2:Map2 -> Reduce1
- Mapreduce3:Reduce2
- MapReduce程序处理是进程级别:MapTask进程、ReduceTask进程
问题:MR程序运行在YARN上时,有一些轻量级的作业要频繁的申请资源再运行,性能比较差怎么办?
Uber模式
功能:Uber模式下,程序只申请一个AM Container:所有Map Task和Reduce Task,均在这个Container中顺序执行

默认不开启
配置:${HADOOP_HOME}/etc/hadoop/mapred-site.xml

特点
- Uber模式的进程为AM,所有资源的使用必须小于AM进程的资源
- Uber模式条件不满足,不执行Uber模式
- Uber模式,会禁用推测执行机制
Sqoop采集数据格式问题
目标:掌握Sqoop采集数据时的问题
路径
- step1:现象
- step2:问题
- step3:原因
- step4:解决
实施
现象
- step1:查看Oracle中CISS_SERVI

本文介绍了Hadoop MR的Uber模式,探讨了Spark比MR快的原因,并展示了如何配置Uber模式。此外,文章详细分析了Sqoop在数据采集过程中遇到的换行符问题,提出了使用Avro格式解决此问题,并回顾了Sqoop的增量采集方案。最后,讨论了脚本开发思路,包括选择Shell脚本进行自动化数据同步,并提供了Python脚本执行Linux命令的实现原理。
最低0.47元/天 解锁文章
5315

被折叠的 条评论
为什么被折叠?



