
spark
浅梦深蓝
耐烦
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache Spark RDD介绍
1. RDD是什么?RDD 全称 Resilient Distributed Dataset,叫做弹性分布式数据集,是 Spark 中最基本的数据抽象,它代表了一个不可变、可分区、里面的元素可并行计算的集合。Resilient :弹性,RDD 的数据是可以保存在内存或者磁盘中,所以是弹性的。Distributed:对数据集内部的元素进行分布式存储,便于后期进行分布式计算。DataSet:数据集合。2. RDD 五大属性A list of partitionspartition(分原创 2020-08-20 18:13:36 · 490 阅读 · 0 评论 -
Apache Spark 内存计算框架简介
1. spark是什么?Apache Spark™ is a unified analytics engine for large-scale data processing.spark是针对于大规模数据处理的统一分析引擎spark 是在Hadoop基础上的改进,基于map reduce算法实现的分布式计算框架,所以spark 拥有Hadoop MapReduce所具有的优点。spark 不同于 MapReduce 的是 spark 的 Job中间输出和结果可以保存在内存中,从而不再需要读写HD原创 2020-08-20 17:14:55 · 715 阅读 · 0 评论