
hadoop
火焰蓝
毕业于湖北民族大学,有三年的开发经验
展开
-
mr内部数据处理流程
内部流程 1.处理数据的输入路径 计算任务切片(mt个数),根据任务切片的个数启动mapTask. 2.MapTask 处理属于自己的任务数据(start(偏移量),length) TextInputFormat就是数据切分,分成若干个split,以便确定MapTask个数,以及对应的split,且里面有一个createRecorder方法,返回一个LineRecordReader 一行一行的读(如果行数比较多,就会产生大量的kv) ...原创 2020-07-13 23:14:21 · 741 阅读 · 0 评论 -
数据倾斜原因及其处理方式
前言 本文是介绍的是开发spark极其核心的地方,可以说懂得解决spark数据倾斜是区分一个spark工程师是否足够专业的标准,在面试 中以及实际开发中,几乎天天面临的都是这个问题。 原理以及现象 先来解释一下,出现什么现象的时候我们认定他为数据倾斜,以及他数据倾斜发生的原理是什么? 比如一个spark任务中,绝多数task任务运行速度很快,但是就是有那么几个task任务运行极其缓慢,慢慢的可能就接着报内存溢出的问题了,那么这个时候我们就可以认定他是数据倾斜了。 接下来说一下发生数据倾斜的底层理论,原创 2020-07-13 19:58:08 · 716 阅读 · 0 评论