
Spark
文章平均质量分 69
我不想名字重复
这个作者很懒,什么都没留下…
展开
-
spark.read.json对schema的排序
spark.read.json对schema的字典排序原创 2023-01-10 14:27:56 · 368 阅读 · 0 评论 -
统计spark读取的文件的大小
统计spark读取的文件的大小原创 2022-07-07 15:22:47 · 915 阅读 · 0 评论 -
Spark Streaming
文章目录Spark Streaming(流处理)快速入门概念介绍Discretized Streams (DStreams)InputStream & ReceiversBasic SourcesQueue of RDDs as a Stream(测试)Advance Source KafkaSpark Stream 算子transform(*func*)UpdateStateByKeymapWithState故障中|重启中恢复状态窗口 - windowOutput Operations(输出)fo原创 2021-11-07 21:19:00 · 367 阅读 · 0 评论 -
Apache Spark
文章目录Spark诞生spark背景介绍计算流程Spark诞生spark背景介绍Spark 是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作,否则我们每次操作就需要等待数分钟甚至数小时。Spark 的一个主要特点就是能够在内存中进行计算,因而更快。不过即使是必须在磁盘上进行的复杂计算,Spark 依然原创 2020-05-27 10:06:19 · 2033 阅读 · 1 评论