
spark
叶青舟
这个作者很懒,什么都没留下…
展开
-
Spark分布式计算原理
Spark分布式计算原理浅谈原创 2020-05-20 13:53:44 · 614 阅读 · 0 评论 -
SPARK RDD基础及常用算子浅谈
SPARK RDD基础及常用算子浅谈一、什么是SPARK RDD: RDD是将数据项拆分为多个分区的集合,存储在集群的工作节点上的内存中,并执行正确的操作。RDD是用于数据转换的接口。RDD指向了存储在HDFS、Cassandra、HBase等、或缓存(内存、内存+磁盘、仅磁盘等),或在故障或缓存收回时重新计算其他RDD分区中的数据。 RDD是弹性分布式数据集(R原创 2020-05-17 18:04:58 · 433 阅读 · 0 评论 -
Apache Spark基础及架构浅谈
Apache Spark基础及架构浅谈一、什么是Spark? Apache Spark是一款由加州大学伯克利分校AMP实验室开发的专为大规模数据处理而设计的快速通用的开源计算引擎。Spark不仅具有Hadoop MapReduce的优点,还具有自己独特的优势,例如,Job的中间输出结果可以存在内存中,从而避免了HDFS的读写操作,使其能够在需要迭代MapReduce的场景下,如数据挖掘和机器学习等,具备更强的数据处理能力。...原创 2020-05-17 09:20:31 · 294 阅读 · 0 评论