
Spark
文章平均质量分 65
WYSIWYG-所见即所得
Apache Spark Contributor
欢迎在github上交流https://github.com/codlife
展开
-
Spark Broadcast 广播变量
广播变量 A broadcast variable. Broadcast variables allow the programmer to keep a read-only variable * cached on each machine rather than shipping a copy of it with tasks. They can be used, for * example原创 2016-10-18 09:33:12 · 826 阅读 · 0 评论 -
Hadoop 编程模型 VS Spark 编程模型
Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而Apache Spark则直接采用了开源软件Akka,该软件实现了Actor模型,性能非常高。尽管二者在server端采用原创 2016-10-18 09:32:04 · 543 阅读 · 0 评论 -
Spark IndexedRDD:高效细粒度更新的RDD
问题由来由于RDD是只读不可更改的,即Spark RDD的Immutable特性,如果想要更新或删除RDD里面的数据,就要遍历整个RDD进行操作,并生成一个新的RDD。有的同学会有疑问,为什么不把RDD设计成可读写,这样就不会有这些问题。我刚开始研究Spark时也有这个困惑,后来查了相关资料,RDD设计为只读不可更改是有原因的。这样设计是为了保证数据一致性,简化不必要的锁机制。当执行update或转载 2016-10-18 14:22:00 · 696 阅读 · 0 评论