
Spark学习
文章平均质量分 50
bitbyteworld
这个作者很懒,什么都没留下…
展开
-
Spark wordcount - Python, Scala, Java
基于Spark实现的Python, Scala, Java三个版本的、经典的分布式单词计数代码。1. Scalaval input = sc.textFile("hdfs://...")val words = input.flatMap(x => x.split(" "))val result = words.map(x => (x, 1)).reduceByKey((x,原创 2016-12-13 17:46:46 · 475 阅读 · 0 评论 -
常见的RDD转化和行动操作算子
1.转化操作2.行动操作原创 2016-12-13 18:03:15 · 1928 阅读 · 0 评论 -
数值RDD的操作算子
Spark 对包含数值数据的RDD 提供了一些描述性的统计操作。Spark 的数值操作是通过流式算法实现的,允许以每次一个元素的方式构建出模型。这些统计数据都会在调用stats() 时通过一次遍历数据计算出来,并以StatsCounter 对象返回。原创 2017-01-19 15:33:03 · 602 阅读 · 0 评论 -
Learning Spark: lightning-fast big data analysis (1)
1. Spark 中的RDD 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。2.转化操作和行动操作原创 2016-11-20 11:40:39 · 1070 阅读 · 0 评论 -
Learning Spark: lightning-fast big data analysis (2)
1. driver进程始终对应用中所有的executor进程有完整的记录。每个executor进程代表一个能够处理任务和存储RDD 数据的进程。2.Spark driver程序会根据当前的executor节点集合,尝试把所有任务基于数据所在位置分配给合适的executor进程。当任务执行时,executor进程会把缓存数据存储起来,而driver进程同样会跟踪这些缓存数据的位置,并且利原创 2017-01-19 15:49:50 · 849 阅读 · 0 评论 -
machine learning with spark (1)
1.广播变量(broadcast variable)为只读变量,它由运行SparkContext的驱动程序driver创建后发送给会参与计算的节点。对那些需要让各工作节点高效地访问相同数据的应用场景,比如机器学习,这非常有用。2.collect函数是一个Spark执行函数,它将整个RDD以Scala(Python或Java)集合的形式返回给驱动程序driver所在节点。通常只在需将结果原创 2017-04-08 19:24:52 · 438 阅读 · 0 评论