Web结构: 现实中的web结构并不都是上面所示例的那样具有强连通性,一般的web结构如下图所示,其中SCC(Strongly Connected Componet)强连通子图。
避免终止点:一个没有出链的网页称为终止点。
如,去掉上例中C到A的边。
处理终止点:
1. 将终止点及其入链从图中删除,最终得到一个强连通子图。
2. 修改随机冲浪者在web上的冲浪过程。
具有多层终止点:
如:
于是PageRank为:
我们得到了A , B , D的PageRank为2/9, 4/9, 3/9. 然后我们根据刚刚删除的相反的顺序求C和E。即先求C,再求E。
C可获得而A的1/3的出链,和D的1/2的出链,因此C的PageRank为1/3*A+1/2*D=13/54。
E只有C 一条连接,则E与C相等。
采集器陷阱及“抽税”法
采集器陷阱是一系列节点集合,它们中虽然没有终止点,但也没有出链只想集合之外。
例如:
PageRank:
随机冲浪者一旦到达C了就无法离开,所以所有的PageRank都到了这个上面。
该方法示例:
取β=0.8,迭代的公式变成:
于是迭代结果变成
作为一个采集器陷阱,C获得了超过一半以上的PageRank值。但是,效果多少也受到了限制,其他节点也获得了一些PageRank值。