spark基础知识
文章平均质量分 53
spark 基础知识
苍老流年
对未来的不确定与焦虑保持独立的判断与认知
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark sql系列--基本操作
spark sql产生DataFrame,DataSet案例原创 2020-01-23 22:23:05 · 263 阅读 · 0 评论 -
spark sql系列--RDD,DataSet,DataFrame之间的转换
1、DataFrame 也可以叫 Dataset[Row],每一行的类型是 Row,不解析,每一行究竟有哪些字段,各个字段又是什么类型都无从得知。3、三者都会根据 spark 的内存情况自动缓存运算,这样即使数据量很大,也不用担心会内存。RDD、DataFrame、Dataset 全都是 spark 平台下的分布式弹性数据集,为处理超大型数据。2、三者都有惰性机制,在进行创建、转换,如 map 方法时,不会立即执行,只有在遇到 Action。5、三者有许多共同的函数,如 filter,排序等。原创 2020-01-23 22:22:39 · 584 阅读 · 0 评论 -
spark sql原理---上篇
spark sql架构Spark SQL 的整体架构如下图所示上图可见,无论是直接使用 SQL 语句还是使用 DataFrame,都会经过如下步骤转换成 DAG 对 RDD 的操作。Parser 解析 SQL,生成 Unresolved Logical Plan由 Analyzer 结合 Catalog 信息生成 Resolved Logical PlanOptimizer根据预先定...转载 2020-04-04 19:39:22 · 329 阅读 · 0 评论 -
spark streaming系列--流输出
简介与spark SQL类似,spark streaming同样可以将数据流输出到外部系统,比如文件系统或者数据库,以下是spark streaming支持的输出操作。foreachRDD可以自定义数据输出方式,所以在日常的使用中最广泛。案例本例从socket端口读取数据并将数据输出到Mysql数据库中。spark streaming读到的数据格式为:姓名,年龄例: zhangsa...原创 2020-01-15 23:25:49 · 417 阅读 · 0 评论 -
Spark Streaming整合kafka实现ExactlyOnce语义
整合kafka原创 2020-08-02 22:54:47 · 499 阅读 · 3 评论 -
Spark Streaming应用程序调优
调优原创 2020-07-29 00:22:49 · 295 阅读 · 0 评论 -
Spark Streaming高可用HA
Spark Streaming任务在运行过程中无论是Driver还是Executor异常被中断,都有可能导致计算任务失败,进而导致数据丢失等一系列问题,为此Spark Streaming提供了高可用解决方案。Driver高可用Driver是Spark Streaming程序的"大脑",一旦Driver挂掉,那么整个任务都会失败。Spark Streaming HA将Driver元数据写到checkpoint目录下,如果后面因为某些原因导致Driver节点挂掉,那么可以通过读取checkpoint目录下的原创 2020-07-27 00:08:58 · 354 阅读 · 0 评论
分享