
大数据
飞翔的IT人
技术新新人
展开
-
一次spark作业执行后进程无法关闭的原因及解决方案
最近运维的同学频频反映,spark集群作业模式,每次执行完成spark的进程端口都已经关闭了,但是通过命令执行spark作业的进程和端口却无法自动关闭,严重影响其他业务组的作业运行,但是无法关闭的情况不是经常出现,出现频率也不规范,但是执行任务正常,数据清洗加工正常,存储正常,查看日志发现是在作业执行完成会执行sparksession.stop方法,是这个方法堵塞了进程的正常关闭,但是原因从日志上...原创 2018-11-21 10:53:00 · 11196 阅读 · 3 评论 -
大数据篇(一):实时计算(storm集成kafka的流式处理)讲解
一、大数据技术背景 大数据的维度分为五维:大量、高速、多样、精确、价值。 大数据背景下,就是将数据集进行清洗处理,得到根据业务场景相关的各项指标。还可以通过开发分析引擎对各种指标的数据进行批处理作业,统计查询等。基本包括两大类型:分布式批处理以及实时计算。分布式批处理,可以看成离线处理,将数据收集到1个月一周或者一天进行处理,不要求纳秒/毫秒响应,应对不要求实时性的海量数据运算。这里不做过多讲...原创 2019-09-01 15:09:43 · 1467 阅读 · 2 评论