
spark
文章平均质量分 62
江湖小妞
Life is like a box of chocolate, you never know what you are going to get.
展开
-
Spark学习(一)--RDD操作
标签(空格分隔): 学习笔记Spark编程模型的两种抽象:RDD(Resilient Distributed Dataset)和两种共享变量(支持并行计算的广播变量和累加器)。RDDRDD是一种具有容错性的基于内存的集群计算方法。 RDD特征: 1. 分区(partition):有一个数据分片列表,能够将数据进行切分,切分后的数据能够进行并行极端,是数据集的原子组成部分; 2. 函数(comp原创 2016-09-11 15:24:09 · 433 阅读 · 0 评论 -
Spark学习(一)--Spark安装及简介
Spark学习(一)标签(空格分隔): Spark学习中的知识点:函数式编程、泛型编程、面向对象、并行编程。任何工具的产生都会涉及这几个问题: 1. 现实问题是什么? 2. 理论模型的提出。 3. 工程实现。 思考: 数据规模达到一台机器无法处理的时候,如何在有限的时间内对整个数据集进行遍历及分析? Google针对大数据问题提出的一些解决方案: * MapReduce: 计算框架;原创 2016-12-31 10:45:32 · 948 阅读 · 0 评论