【无标题】

本文介绍了PageRank算法原理及应用,并探讨了期望最大化算法与最大熵模型在文本分类等任务中的作用。PageRank通过超链接关系计算网页的重要性,而期望最大化算法与最大熵模型则在自然语言处理领域展现出强大能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文献考核


个人分析使用。能一次走别走第二次。

没什么用,仅供参考,下午看机器学习,有无推荐的书或B站视频可以给我参考参考。救命!!!!!!!!

一、必考题

数学之美

1. PageRank

PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。

PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。

1 PageRank 算法的原理

在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是PageRank的核心思想。

2 PageRank 的计算方法

向量B (为我们求):为第一、第二、…、第N个网页的网页排名。

A为网页之间链接的数目,其中a mn 代表第m个网页指向第n个网页的链接数。A是已知的,B是未知的,是我们所要计算的。

在这里插入图片描述

假定Bi 是第i次迭代的结果,那么

在这里插入图片描述

初始假设,所以网页的排名都是1/N,即

B0 = (1/N,1/N,…,1/N) ——(为何能假设?)

显然通过(10.3)简单(但是计算量非常大)的矩阵运算,可以得到B1,B2…。可以证明(省略)Bi最终会收敛,即Bi无限趋近于B(我们所求),此时:B=B×A。因此,当两次迭代的结果Bi和Bi-1之间的差异非常小,接近于零时,停止迭代运算,算法结束。一般来讲,只要10次左右的迭代基本上就收敛了。

在这里插入图片描述

3 小结

在这里插入图片描述

PageRank在Google 所有算法中依然是至关重要的。在学术界,这个算法被公认为是文献检索中最大的贡献之一。

2. 期望最大化算法——再谈文本自动分类问题

是不是该抽空把前面的文本分类看一遍。

本章重点:上帝的算法>>>>>没啥重点有全是重点,看书去吧。

期望最大化算法(Expectation Maximization),是一种渐进逼近算法;定义一个最优化函数后,分为两步:根据参数调整模型(E步);根据模型调整参数(M步);E步和M步交替进行,直至最优(局部)。

一个不是很恰当的例子,塔吊盖楼房。
目标函数:盖楼房盖到预定高度。E步:根据楼房现有高度调整塔吊高度(根据参数调整模型);M步:根据现有塔吊高度将楼房盖到尽可能高(根据模型调整参数);交替进行直到楼房达到预定高度。

1 文本的自收敛分类

a

2 期望最大化和收敛的必然性

首先要明确一点,就是我们的距离函数足够好,它能保证同一类相对距离较近,而不同类的相对距离较远。我们希望最终的分类结果是:相近的点都被聚集到了一类中,这样同一类中各个点到中心的平均距离d较近,而不同类中心之间的平均距离D较远。我们希望的迭代过程是每一次迭代时,d比以前变小,而D变大。

3 小结

EM算法只需要有一些训练数据,定义一个最大化函数,剩下的事情就交给计算机了。经过若干次迭代,我们需要的模型就训练好了。这实在是太美妙了,这也许是造物主刻意安排的。所以我把它称作上帝的算法。

3. 最大熵模型

最大熵模型(Maximum Entropy),给定一个概率分布,则熵的定义为:Hp=−p(x)logp(x)

1 最大熵原理和最大熵模型

数学上最漂亮的办法是最大熵(Maximum Entropy)模型,它相当于行星运动的椭圆模型。“最大熵”这个名词听起来很深奥,但它的原理很简单,我们每天都在用。说白了,就是要保留全部的不确定性,将风险降到最小。

课本举得例子挺详细,有趣的,书也要看,作为理解

最大熵原理指出,需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。(不做主观假设这点很重要)在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型”。

香农奖得主希萨(I.Csiszar)证明,对任何一组不自相矛盾的信息,这个最大熵模型不仅存在,而且是唯一的。此外,它们都有同一个非常简单的形式—指数函数。下面的公式是根据上下文(前两个词)和主题预测下一个词的最大熵模型,其中W3是要预测的词(王晓波或者王小波),W1和W2是它的前两个字(比如说它们分别是“出版”和“小说家”),也就是其上下文的一个大致估计,s表示主题。

在这里插入图片描述

其中z是归一化因子,保证概率加起来等于1。

最大熵模型在形式上是最漂亮、最完美的统计模型,在自然语言处理和金融方面有很多有趣的应用

2 最大熵模型的训练

最大熵模型在形式上非常简单,但是在实现上却非常复杂,计算量非常大。
假定我们搜索的排序需要考虑20种特征,{x1,x2……x20},需要排序的网页是d,那么即使这些特征互相独立,对应的最大熵模型也是“很长”的

在这里插入图片描述

其中归一化因子

在这里插入图片描述

GIS

IIS

3 小结

最大熵模型可以将各种信息整合到一个统一的模型中。它有很多良好的特性:从形式上看,它非常简单,非常优美;从效果上看,它是唯一一种既可以满足各个信息源的限制条件,同时又能保证平滑(Smooth)性的模型。由于最大熵模型具有这些良好的特性,它的应用范围因而十分广泛。但是,最大熵模型的计算量巨大,在工程上实现方法的好坏决定了模型的实用与否。

二、选做题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值