
Spark
文章平均质量分 70
mangoer_ys
简单不先于复杂,而是在复杂之后。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Scala初探(二)
5. 单例模式class Marker(val color: String){ //类中的任何代码段作为构造函数的一部分 println("Creating " + this) override def toString(): String = "marker color " + color }object MarkerFactory{ private val markers原创 2015-02-01 13:51:27 · 745 阅读 · 0 评论 -
Spark下的PageRank实现
val sc = new SparkContext(...)val links = sc.parallelize(Array(('A',Array('D')),('B',Array('A')),('C',Array('A','B')),('D',Array('A','C'))),2).map(x => (x._1,x._2)).cache()var ranks = sc.paralleliz原创 2015-05-07 17:37:35 · 2442 阅读 · 0 评论 -
Spark下的FP-Growth和Apriori(频繁项集挖掘并行化算法)
频繁项集挖掘是一个关联式规则挖掘问题。关联挖掘是数据挖掘中研究最早也是最活跃的领域,其中频繁模式的挖掘是关联挖掘的核心和基础,是产生关联规则挖掘的基础。其中FP-Growth和Apriori算法是最为经典的频繁项集挖掘算法。本文在spark下利用scala编写,充分利用了spark的内存计算方式和scala简洁的语法模式和先天性的并行化特性,充分发挥了FP-Growth。原创 2015-02-01 11:46:41 · 11613 阅读 · 15 评论 -
Scala初探(三)
11. curry化def inject(arr:Array[Int],initial:Int)(operation: (Int,Int) => Int): Int ={ var carryOver = initial arr.foreach(element => carryOver = operation(carryOver,element)) carryOver}val ar原创 2015-02-01 14:18:46 · 938 阅读 · 0 评论 -
scala初探(一)
Scala语言是在JVM上编程的优秀语言之一,其为并发,表达式和可扩展性而设计。这门语言及其程序库可以让你专注于问题而无需深陷于线程和同步等底层基础结构细节。Scala是一门混合了函数式和面向对象的语言。有以下特性: 1. Scala对函数式编程的支持可以写出非常简洁而有表现力的代码; 2. 对于多线程应用,Scala提供了基于actor的消息传递模型,消除了涉及并发的痛苦问题,利用该模型,可以很方便简单的写出多线程代码,而不用考虑线程之间的数据竞争和加锁释放锁等问题; 3. Scala和java一样原创 2015-02-01 12:53:13 · 836 阅读 · 0 评论 -
Spark架构及运行机制
Spark架构 Spark架构使用了分布式计算中master-slave模型,master是集群中含有master进程的节点,slave是集群中含有worker进程的节点。原创 2015-02-02 17:16:05 · 3051 阅读 · 1 评论 -
Spark下的TopK实现(Java)
import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.io.Serializable;import java.util.Arrays;im原创 2015-05-10 16:18:45 · 1641 阅读 · 0 评论