PageRank笔记






Web结构: 现实中的web结构并不都是上面所示例的那样具有强连通性,一般的web结构如下图所示,其中SCC(Strongly Connected Componet)强连通子图。




避免终止点:一个没有出链的网页称为终止点。

 如,去掉上例中C到A的边。




处理终止点:

1. 将终止点及其入链从图中删除,最终得到一个强连通子图。

2. 修改随机冲浪者在web上的冲浪过程。


具有多层终止点:

如:





于是PageRank为:


 我们得到了A , B , D的PageRank为2/9, 4/9, 3/9. 然后我们根据刚刚删除的相反的顺序求C和E。即先求C,再求E。

C可获得而A的1/3的出链,和D的1/2的出链,因此C的PageRank为1/3*A+1/2*D=13/54。 

E只有C 一条连接,则E与C相等。


采集器陷阱及“抽税”法

采集器陷阱是一系列节点集合,它们中虽然没有终止点,但也没有出链只想集合之外。

例如:



PageRank: 


随机冲浪者一旦到达C了就无法离开,所以所有的PageRank都到了这个上面。



该方法示例:

取β=0.8,迭代的公式变成:


于是迭代结果变成


作为一个采集器陷阱,C获得了超过一半以上的PageRank值。但是,效果多少也受到了限制,其他节点也获得了一些PageRank值。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值