关于为什么pagerank能收敛

PageRank算法通过建立有向图模型,初始分配PR值并进行迭代更新,结合 teleporting 机制解决孤立网页问题。当转换为Markov过程后,证明其满足随机矩阵的收敛条件:所有元素非负、每列元素和为1、不可约和非周期性,从而确保PageRank算法的收敛性。

关于为什么pagerank能收敛

pagerank的主要思想

  • 如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高
  • 如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高

算法原理

这里写图片描述

PageRank算法是互联网中的众多网页看做是一个有向图,如上图所示。算法过程是把网页预先给网页一个PR值(一般取1N\frac{1}{N}N1, N 为网页总数)。然后通过以下公式不断更新PR值,直到收敛:

PR(pi)=α∑pj∈MpiPR(pj)L(pj)+1−αNPR(p_i) = \alpha \sum _{p_j \in M_{p_i}} \frac{PR(p_j)}{L(p_j)} + \frac{1-\alpha}{ N}PR(pi)=αpjMpiL(pj)PR(pj)+N1α

其中MpiM_{p_i}Mpi 是所有对pip_ipi网页有出链的网页集合, L(pj)L(p_j)L(pj)pjp_jpj的出链数目, alpha=0.85alpha=0.85alpha=0.85, 从以上公式来看,若MpiM_{p_i}Mpi的PR值越大,pip_ipi越大, 同时MpiM_{p_i}Mpi 中的网页, 出链数目越少,影响力越大。

为了解决有些网页不被链接的情况,引入了『teleporting』, 所谓『teleporting』就是我们认为在任何一个页面浏览的用户都有可能以一个极小的概率瞬间转移道另外一个随机页面。当然,这个页面之前可能不存在超链接,因此不可能直接转移过去,只是为了算法需要。即1−αN\frac{1-\alpha}{ N}N1α


##为什么能收敛?

然后需要回到我们的标题,为什么能收敛的问题。需要转换为Markov过程。

如何转换为Markov过程

eee为所有分量都为1的列向量,接着定义矩阵:
A=αS+1−αNeeTA = \alpha S + \frac{1- \alpha }{N} e e^TA=αS+N1αeeT, 则PR的计算过程可以转化为

Pn+1=APnP_{n+1} = A P_nPn+1=APn , 于是该过程就转为了一个Markov过程了。

下面要证明pagerank收敛,即证明其满足Markov过程收敛的条件:

  • A为随机矩阵(A矩阵所有元素都大于等于0,并且每一列的元素和都为1)
  • A为不可约的(当图是强连通时,A为不可约,我们之前定义各个网页都是可相互转跳的)
  • A为非周期的

以上条件均满足,所以pagerank是收敛的,且与初始值无关。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值