附注:本博文内容对应书本5、6章
一、 α 因子
上一篇博客中引入参数a来产生谷歌矩阵:
当a→1时,幂法所需要的期望迭代次数急剧上升。如下表所示:
当a→1时,由跳转矩阵所带来的人为成分会减少,但计算时间却增加了。常数a不仅仅控制了PageRank方法的收敛,还影响了计算得到的PageRank向量的敏感性。
敏感性分析:
可以形象地用来表示 πT 中的元素如何随 α 变化的情况的一个近似,虽并未精确,但对其分析可以揭示出若干重要信息。
这里先给出三个定理:
1.设PageRank向量由下式给出
式中,Di(a)为I-G(a)中的第i个n-1阶主子式。由于每个主子式Di(a)>0都是I-G(a)中元素值的乘积之和,因此中的每个元素在(0,1)区间都是a的一个可微函数。证明可微
下面定理给出导函数向量中单个函数取值的(1 - 范数)一个上界,以及这些元素之和的一个上界。
2.若为PageRank向量,则对每个j=1,2,···,n,有
且
由定理2可知,对于较小的a值,确保了PageRank不会过于敏感,但随着a→0,值将趋向于无穷大,因此这个上界将变得越来越没有价值。但是,较大的a值对万维网真实链接结构赋予了更大的权重,而较小的a值则增加了人为制造的概率向量 vT 的影响。因此,较大的a值比较符合我们的想法,下面定理3进一步确定PageRank对较大的a值的敏感性。
3.若 πT(a) 是谷歌矩阵
所对应的PageRank向量,则
特别的,该导数的极限值如下
其中,