
spark
zzd0007
这个作者很懒,什么都没留下…
展开
-
关于fold
1.在scala中,对集合的fold操作: val l=List(1,2,3) val res=l.fold(10)(_+_) 结果res为16 这里的10为整个集合的初始值,只使用了一次 2.spark中rdd val a=sc.makeRDD(List(1,2,3)) val res=a.fold(10)(_+_) 结果res为46 这里的10为集合中每个元素的初始值,每个元素在调原创 2017-10-11 14:58:14 · 414 阅读 · 0 评论 -
RDD的特性介绍及源码阅读--基础篇
https://mp.weixin.qq.com/s/zI5yqLV3LPEUdYsAwl4nPg原创 2018-06-27 13:39:04 · 188 阅读 · 0 评论 -
Spark与kafka 0.8.2.1+整合
https://mp.weixin.qq.com/s?__biz=MzA3MDY0NTMxOQ==&mid=2247484551&idx=1&sn=ee51a406c1fa975489b7f9758a9e8d2c&chksm=9f38e7afa84f6eb934bc8bd09b106db456b4146a663d4bff759c0e2f9c0a03f30c7479e...原创 2018-06-18 19:19:32 · 338 阅读 · 0 评论 -
Spark Streaming的容错和数据无丢失机制(WAL机制)
实时的流式处理系统必须是7*24运行的,同时可以从各种各样的系统错误中恢复,在设计之处,Spark Streaing就支持driver和worker节点的错误恢复。然后,在使用某些数据源的时候,错误恢复时输入数据可能会丢失。在spark 1.2中,加入write ahead logs(日志)这个初步方案用来改进恢复机制,保证数据的无丢失。背景spark和rdd的设计保证了集群中worker节点的容...原创 2018-06-17 23:27:25 · 1140 阅读 · 0 评论 -
spark源码系列之累加器实现机制及自定义累加器
来自浪尖大大:https://mp.weixin.qq.com/s/xQx3hVgXEEjGUjtlwavZUA原创 2018-06-06 08:05:07 · 207 阅读 · 0 评论 -
理解Spark里的闭包
https://mp.weixin.qq.com/s/I0ryrdbo2VHz1Nw7JNyRMw转载 2018-06-11 17:07:35 · 245 阅读 · 0 评论 -
spark rdd---checkpoint机制
先说cache.val rdd1 = sc.textFile("hdfs://master:9000/wordcount/input")val rdd2 = rdd1.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)rdd2.collect这里以wordcount为例,因为rdd2中的数据经复杂操作后很重要,以后可能经常用到(如机器学习中的迭代计算...原创 2018-05-27 17:29:52 · 2535 阅读 · 0 评论 -
spark-scala版的PageRank
PageRank是一种从RDD分区中获益的算法,刚学完RDD分区,便以它为例吧。 PageRank用来根据外部文档指向一个文档的链接,对集合中每个文档的重要程度赋一个度量值。该算法可以用于对网页进行排序,也可以用于排序科技文章或社交网站中有影响的用户。 PageRank是执行多次连接的一个迭代算法,算法维护两个数据集:一个由(pageID,linkList)的元素组成,包含每个页面的相邻页原创 2017-10-24 12:02:24 · 574 阅读 · 0 评论 -
sparkstreaming中的checkpoint
浪尖院长的文章: https://mp.weixin.qq.com/s/dC321L_yMG-SwhH6Zw62Hw原创 2018-08-07 11:44:14 · 284 阅读 · 0 评论