文献考核
个人分析使用。能一次走别走第二次。
没什么用,仅供参考,下午看机器学习,有无推荐的书或B站视频可以给我参考参考。救命!!!!!!!!
一、必考题
数学之美
1. PageRank
PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。
PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
1 PageRank 算法的原理
在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是PageRank的核心思想。
2 PageRank 的计算方法
向量B (为我们求):为第一、第二、…、第N个网页的网页排名。
A为网页之间链接的数目,其中a mn 代表第m个网页指向第n个网页的链接数。A是已知的,B是未知的,是我们所要计算的。
假定Bi 是第i次迭代的结果,那么
初始假设,所以网页的排名都是1/N,即
B0 = (1/N,1/N,…,1/N) ——(为何能假设?)
显然通过(10.3)简单(但是计算量非常大)的矩阵运算,可以得到B1,B2…。可以证明(省略)Bi最终会收敛,即Bi无限趋近于B(我们所求),此时:B=B×A。因此,当两次迭代的结果Bi和Bi-1之间的差异非常小,接近于零时,停止迭代运算,算法结束。一般来讲,只要10次左右的迭代基本上就收敛了。
3 小结
PageRank在Google 所有算法中依然是至关重要的。在学术界,这个算法被公认为是文献检索中最大的贡献之一。
2. 期望最大化算法——再谈文本自动分类问题
是不是该抽空把前面的文本分类看一遍。
本章重点:上帝的算法>>>>>没啥重点有全是重点,看书去吧。
期望最大化算法(Expectation Maximization),是一种渐进逼近算法;定义一个最优化函数后,分为两步:根据参数调整模型(E步);根据模型调整参数(M步);E步和M步交替进行,直至最优(局部)。
一个不是很恰当的例子,塔吊盖楼房。
目标函数:盖楼房盖到预定高度。E步:根据楼房现有高度调整塔吊高度(根据参数调整模型);M步:根据现有塔吊高度将楼房盖到尽可能高(根据模型调整参数);交替进行直到楼房达到预定高度。
1 文本的自收敛分类
a
2 期望最大化和收敛的必然性
首先要明确一点,就是我们的距离函数足够好,它能保证同一类相对距离较近,而不同类的相对距离较远。我们希望最终的分类结果是:相近的点都被聚集到了一类中,这样同一类中各个点到中心的平均距离d较近,而不同类中心之间的平均距离D较远。我们希望的迭代过程是每一次迭代时,d比以前变小,而D变大。
3 小结
EM算法只需要有一些训练数据,定义一个最大化函数,剩下的事情就交给计算机了。经过若干次迭代,我们需要的模型就训练好了。这实在是太美妙了,这也许是造物主刻意安排的。所以我把它称作上帝的算法。
3. 最大熵模型
1 最大熵原理和最大熵模型
数学上最漂亮的办法是最大熵(Maximum Entropy)模型,它相当于行星运动的椭圆模型。“最大熵”这个名词听起来很深奥,但它的原理很简单,我们每天都在用。说白了,就是要保留全部的不确定性,将风险降到最小。
课本举得例子挺详细,有趣的,书也要看,作为理解
最大熵原理指出,需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。(不做主观假设这点很重要)在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型”。
香农奖得主希萨(I.Csiszar)证明,对任何一组不自相矛盾的信息,这个最大熵模型不仅存在,而且是唯一的。此外,它们都有同一个非常简单的形式—指数函数。下面的公式是根据上下文(前两个词)和主题预测下一个词的最大熵模型,其中W3是要预测的词(王晓波或者王小波),W1和W2是它的前两个字(比如说它们分别是“出版”和“小说家”),也就是其上下文的一个大致估计,s表示主题。
其中z是归一化因子,保证概率加起来等于1。
最大熵模型在形式上是最漂亮、最完美的统计模型,在自然语言处理和金融方面有很多有趣的应用
2 最大熵模型的训练
最大熵模型在形式上非常简单,但是在实现上却非常复杂,计算量非常大。
假定我们搜索的排序需要考虑20种特征,{x1,x2……x20},需要排序的网页是d,那么即使这些特征互相独立,对应的最大熵模型也是“很长”的
其中归一化因子
GIS
IIS
3 小结
最大熵模型可以将各种信息整合到一个统一的模型中。它有很多良好的特性:从形式上看,它非常简单,非常优美;从效果上看,它是唯一一种既可以满足各个信息源的限制条件,同时又能保证平滑(Smooth)性的模型。由于最大熵模型具有这些良好的特性,它的应用范围因而十分广泛。但是,最大熵模型的计算量巨大,在工程上实现方法的好坏决定了模型的实用与否。