
Spark
驾蛙攻城司
程序员中的老司机!
展开
-
Spark计算模型RDD, RDD编程实战, RDD函数详解!
什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中,后续的查询能够重用这些数据,这极大地提升了查询速度。Dataset:一个数据集合,用于存放数据的。Distributed:RDD中的数据是分布式存储的,可用于分布式计算。Resilient:RDD原创 2020-10-27 17:42:35 · 623 阅读 · 1 评论 -
Spark 入门, 看这一篇就够了!
熟悉 Spark 相关概念什么是 Spark(官网:http://spark.apache.org)Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大 学伯克利分校 AMPLab,2010 年开源,2013 年 6 月成为 Apache 孵化项目,2014 年 2 月成为 Apache 顶级项目。目前,Spark 生态系统已经发展成为一个包含多个 子项目的集合,其中包含 SparkSQL、Spark Streaming、GraphX、MLlib 等子项目, Spark 是.原创 2020-10-27 16:02:12 · 725 阅读 · 2 评论