TextRank算法主要用来生成文本的关键词和摘要,其来源于PageRank算法,下面先介绍PageRank。PageRank在搜索领域有广泛的应用,最开始用来计算网页的重要性。可以把整个网络看成有向图,网页是结点,如果网页A中存在一条链接指向网页B,则认为A到B存在一条有向边。
S(Vi)表示网页i的重要性即PR值,d是阻尼系数(确保当一个网页没有链接指向它时,也有一定PR值),经验一般设置为0.85,In(Vi)是包含指向网页i的链接的网页集合。Out(Vj)是网页j中指向其他网页的链接的集合,S(Vj)代表网页j的PR值。所以对于一个网页,它的重要性取决于到它的每个链接页面的重要性之和,每个链接到该网页的页面的PR值S(Vj)同时还需要对其他的页面贡献评分,所以除以了|Out(Vj)|。另外,网页的重要性不单单由链接网页决定,还包含一定的概率要不要接受其他网页的重要性评价,这也就是d的作用。
初始时,可以将各个网页的重要性值设置为1,PageRank经过多次迭代最终得到结果。公式左边代表迭代后的网页PR值,等号右边的是迭代前的PR值。
TextRank提取