
Spark
文章平均质量分 76
Jack_F
唉生活唉社交
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark PageRank
如果不考虑出度为0的节点情况,方法很easy,参考官方的code。但是考虑出度为0的节点的时候,会出现各种问题 先贴上代码,再说明package myclass import org.apache.spark.SparkContext import SparkContext._ import scala.collection.mutable.ArrayBuffer import scala.c原创 2014-02-23 16:23:48 · 10156 阅读 · 0 评论 -
SparkTC :Transitive closure on a graph(图中节点的可达性)
思路: 1.生成数据(from,to),为初试可达节点对数目(同时也是基本的节点跳转规则) 2.对数据需要做一次链接操作,(类似于一次矩阵乘) 3.将链接操作的结果提取成(from,to)形式,与当前的可达节点对做并集,得到最新的当前可达节点对数目 3.比较当前可达节点对的数量与上一轮节点对数量 4.若没有增加,则停止;否则,跳转至2继续执行 可能还是比较晕乎乎,看实验数据原创 2014-02-27 20:50:47 · 3825 阅读 · 0 评论 -
KMeans on Spark
思路: 1.随机生成数据 2.随机生成K个聚类中心 3.计算每个点所属的类别 4.计算新的聚类中心 5.比较聚类中心的变化情况,大于阈值跳转至3;小于阈值停止。 package myclass import java.util.Random import org.apache.spark.SparkContext import SparkContext._ import org.ap原创 2014-02-27 11:33:53 · 5776 阅读 · 4 评论 -
Spark with Hadoop InputFormat
基于Yarn的,使用新的API,SBT需要添加,默认是用的1.0.4的client libraryDependencies += "org.apache.hadoop" % "hadoop-client" % "2.2.0" 代码如下 package myclass import org.apache.spark.SparkContext import org.apache.hadoop.原创 2014-02-28 10:51:23 · 7025 阅读 · 2 评论 -
GraphX中Pregel单源点最短路径
GraphX中的单源点最短路径例子,使用的是类Pregel的方式。 核心部分是三个函数: 1.节点处理消息的函数 vprog: (VertexId, VD, A) => VD (节点id,节点属性,消息) => 节点属性 2.节点发送消息的函数 sendMsg: EdgeTriplet[VD, ED] => Iterator[(VertexId,A)] (边元组) => Iterato原创 2014-03-04 21:54:27 · 7241 阅读 · 1 评论 -
找工作面试备忘录
Data Structure Java 1.Java HashMap的工作原理 2.Java应用程序中的内存泄漏及内存管理 3.Java垃圾回收精粹 Hadoop原创 2014-04-08 16:54:33 · 1558 阅读 · 0 评论