
spark
log_zhan
这个作者很懒,什么都没留下…
展开
-
Spark学习笔记(二)-弹性分布式数据集RDDs
Spark-弹性分布式数据集RDDs 在阅读很多的Spark简介中,都及多的提到RDDs这个名词。官方文档指出:Spark 核心的概念是 Resilient Distributed Dataset (RDD):一个可并行操作的有容错机制的数据集合。这句话说明RDD的本质是集合,这个集合带有并行操作和容错机制。 官方文档指出有两种方式创建RDD,一种是在你的驱动程序中并行化一个已经存在原创 2016-09-17 22:07:54 · 2156 阅读 · 0 评论 -
Spark学习笔记(三)-开始第一个spark程序
Spark学习笔记-开始第一个spark程序 在安装完Spark,其实最疑惑还是Spark怎么用的问题,由于也是刚学习linux,也不是很习惯linux下的命令行操作。按照Spark的官方文档,我们开始编写Spark的的第一个程序。一、标准进入spark方式 很多人在安装完spark后就懵了,本人也是一样。毕竟spark在linux下没有什么桌面图标这种明显的东西。要启动Spark,我们先要进入原创 2016-09-18 16:59:28 · 4259 阅读 · 0 评论