
算法
绿萝蔓蔓绕枝生
这个作者很懒,什么都没留下…
展开
-
GraphX之Connected Components算法
在Spark Graphx的org.apache.spark.graphx.lib包中有一些常用的图算法,其中一个就是Connected Components,本文将会介绍此算法的使用方法,下面是spark 1.6.3源码中对这个算法的注释: Compute the connected component membership of each vertex and return a graph with the vertex value containing the lowest vertex id in原创 2020-11-26 18:44:51 · 1129 阅读 · 0 评论 -
PageRank算法原理剖析及Spark实现
1.什么是PageRank PageRank对网页排名的算法,曾是Google发家致富的法宝。PageRank算法计算每一个网页的PageRank值,然后根据这个值的大小对网页的重要性进行排序 2.简单PageRank算法 首先,将Web做如下抽象: (1)将每个网页抽象成一个节点; (2)如果一个页面A有链接直接链向B,则存在一条有向边从A到B(多个相同链接不重复计算边) 因此,整个Web被抽象为一张有向图。现在假设世界上只有四张网页:A、B、C、D,其抽象结构如下图: 显然这个图是强连通的(从任一节点原创 2020-11-26 17:47:14 · 519 阅读 · 0 评论 -
Spark GraphX 中的 pregel 算法
pregel函数源码 与 各个参数介绍: def pregel[A: ClassTag]( initialMsg: A, maxIterations: Int = Int.MaxValue, activeDirection: EdgeDirection = EdgeDirection.Either)( vprog: (VertexId, VD, A) => VD, sendMsg: EdgeTriplet[VD, ED] => It原创 2020-11-26 16:31:16 · 262 阅读 · 0 评论