
spark
-山海經-
这个作者很懒,什么都没留下…
展开
-
Spark RDD API详解(一) Map和Reduce
Spark RDD API详解(一) Map和Reduce Spark RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转转载 2016-11-16 14:09:51 · 366 阅读 · 0 评论 -
scala 学习笔记-持续更新中
scala 学习笔记-持续更新中 学习列表: scala官方文档scala cheattwitter Scala 课堂有趣的 Scala 语言: 使用递归的方式去思考《scala 编程》 几乎一切乎都是表达式 scala> 1 + 1 res0: Int = 2 复合表达式——{} 花括号用于创建复合表达式,复合表达式的返回值是最后一转载 2016-11-11 15:01:38 · 829 阅读 · 0 评论 -
Spark的算子的分类
Spark的算子的分类 Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Acti转载 2016-11-18 20:51:06 · 3214 阅读 · 0 评论 -
打包并提交运行Spark应用程序jar包
基于eclipse的Spark IDE可在 http://scala-ide.org/ 下载。 以WordCount为例: package com.lxw.test import org.apache.spark.{SparkConf, SparkContext}import SparkContext._ object WordCount { def main (args: Arr转载 2016-11-22 09:56:56 · 9214 阅读 · 0 评论