
spark
文章平均质量分 73
李奇峰1998
吾生也有涯,而知也无涯
展开
-
【2022持续更新】大数据最全知识点整理-Spark篇
大数据最全面试题整理-Spark篇导语基础问题:导语本专栏博文会整理日常工作与面试中最常用到的大数据相关组件与Java语言的架构、概念、知识点,方便大家进行查阅。涉及到的面试题以及答案均为博主搜罗整理,并加上自己的理解编写而成。同时博主会在部分题目的下方添加管遇此题深入理解的博文连接,方便读者的深入理解。希望大家可以通过此篇博文对于大数据相关概念有一个更深入的理解还有哪些想看的面试题,读者可以在评论区补充,博主会在一天内进行更新!!!最后预祝大家新的一年升职加薪,工资涨涨涨!基础问题:原创 2021-11-18 16:26:06 · 1612 阅读 · 0 评论 -
Flink、Spark、Storm技术对比列表
ApacheFlinkSpark StreamingStorm架构架构介于Spark和Storm之间,主从结构与SparkStreaming相似,DataFlow Grpah与Storm相似架构依赖Spark,每个Batch处理都依赖主(Driver),可以理解为时间维度上的spark DAG。主从模式,且以来Zookeeper,处理过程中对主节点依赖不大。处理模式NativeMicro-batchNative容错基于CheckPoint机制WAL及RDD...原创 2021-01-03 23:10:43 · 924 阅读 · 0 评论 -
记一次SparkSql的union操作异常
在某次使用sparksql中的union合并两个DataFrame时,发现总是报类型不匹配的错误,但是检查后发现两个DataFrame中无论是列名和列的类型,都是完全相同的,下面复现一下这个错误object SqlTest { def main(args: Array[String]): Unit = { // 设置日志输出的级别 Logger.getLogger("or...原创 2019-05-27 10:16:12 · 4918 阅读 · 0 评论 -
Spark基础概念梳理
因为最近在学习与使用Spark,所以对一些基础概念与术语做一些梳理。用来加深映像同时方便后续复习spark是一个基于内存的分布式计算框架,可无缝集成于现有的Hadoop生态体系。主要包括四大组件:Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。其中Spark运行中涉及到的一些基础概念如下:mater:主要是控制、管理和监督整个sp...原创 2019-05-26 21:50:07 · 342 阅读 · 0 评论 -
离线数据清洗,Spark和Python Pandas对比
导语最近新学习了Spark中RDD的核心用法,为了巩固学习成果,于是使用Spark写了一个数据清洗的代码,正好之前使用过python中pandas对同样的数据做数据清洗,于是就把两种方式的代码都贴出来,做一个简单的对比数据展示豆瓣图书标签: 小说,[日] 东野圭吾 / 李盈春 / 南海出版公司 / 2014-5 / 39.50元,解忧杂货店,8.6,(297210人评价)豆瓣图书标签...原创 2018-08-27 10:40:08 · 2746 阅读 · 5 评论