spark-shell实现PageRank

本文通过Scala代码展示了PageRank算法的实现过程,并详细解析了每一步迭代中的具体操作及结果,最终得到了各网页的重要性评分。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

talk is cheap, show code

Scala 代码实现 :

 

val links = sc.parallelize(Array(
('a', Array('d')), 
('b', Array('a')), 
('c', Array('a', 'b')), 
('d', Array('a', 'c'))))

// 设置各页面的初始rank值为1.0
// var ranks = links.mapValues(_ => 1.0) 
var ranks = sc.parallelize(Array(
('a', 1.0), 
('b', 1.0), 
('c', 1.0), 
('d', 1.0)))

for(i <- 1 to iterations) {
    val joinRdd = links.join(ranks)
    val contribsRdd = joinRdd.flatMap{
        // 注意这里的links为模式匹配得到的值, 类型为Array[Char], 并非前面的ParallelCollectionRDD
        case(srcURL, (links, rank)) => links.map(destURL => (destURL, rank / links.size))
    }
    // 简化了的 rank 计算公式, 更新 ranks
    ranks = contribsRdd.reduceByKey(_ + _).mapValues(0.15 + _ * 0.85)
}

 

代码分析:

第1次迭代, transform操作, rdd.join(other) , 对 links 和 ranks 这个2个RDD进行连接

joinRdd = links.join(ranks)

结果如下:

 

res1: Array[(Char, (Array[Char], Double))] = 
    Array((d,(Array(a, c),1.0)), (b,(Array(a),1.0)), (a,(Array(d),1.0)), (c,(Array(a, b),1.0)))

 

第1次迭代, transform操作: rdd.flatMap(func) 

contribsRdd = joinRdd.flatMap{

    // 注意这里的links为模式匹配得到的值, 类型为Array[Char], 并非前面的ParallelCollectionRDD

    case(srcURL, (links, rank)) => links.map(destURL => (destURL, rank / links.size))

}

结果如下:

res2: Array[(Char, Double)] = Array((a,0.5), (c,0.5), (a,1.0), (d,1.0), (a,0.5), (b,0.5))

 

第1次迭代, transform操作:  rdd.reduceByKey(func) & rdd.mapValues(func)

// 简化了的 rank 计算公式, 更新 ranks

ranks = contribsRdd.reduceByKey(_ + _).mapValues(0.15 + _ * 0.85)

结果如下:

res3: Array[(Char, Double)] = Array((d,1.0), (b,0.575), (a,1.84999), (c,0.575))

这里有double类型造成的精度丢失, a 页面的 rank 值应该为 1.85

 

迭代的结果:

第1次迭代, ranks的结果如下:

res1: Array[(Char, Double)] = Array((d,1.0), (b,0.575), (a,1.84999), (c,0.575))

第2次迭代, ranks的结果如下:

res2: Array[(Char, Double)] = Array((d,1.72249), (b,0.394375), (a,1.308124), (c,0.575))

第3次迭代, ranks的结果如下:

res3: Array[(Char, Double)] = Array((d,1.26190), (b,0.39437), (a,1.46165), (c,0.88206))

 

...

第21次迭代, ranks的结果如下:

res21: Array[(Char, Double)] = Array((d,1.37039), (b,0.46126), (a,1.43586), (c,0.73247))

第22次迭代, ranks的结果如下:

res22: Array[(Char, Double)] = Array((d,1.37048), (b,0.46130), (a,1.43579), (c,0.73241))

第23次迭代, ranks的结果如下:

res23: Array[(Char, Double)] = Array((d,1.37042), (b,0.46127), (a,1.43583), (c,0.73245))

 

 

从上面的迭代结果可以得出, 当迭代到22次时, rank值( 保留小数点后4位 )趋于稳定,

此时的rank值可以作为结果值:

 a : 1.4358    b : 0.4613    c : 0.7325    d : 1.3704

 

 愿天堂没有 MoneyRank. 

 

转载于:https://my.oschina.net/u/2503731/blog/669620

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值