153day（网络搜索问题）

原创于 2018-03-13 01:09:05 发布 · 191 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文回顾了搜索引擎的发展历程，从1990年的Archie到Google和百度等现代搜索引擎的出现。详细介绍了搜索引擎的工作原理及其分类，并重点解析了Google的PageRank算法，包括其计算思想和优化方法。

《2018年3月13日》【连续153天】

标题：网络搜索问题；
内容：

A.搜索引擎：
a.历史：

1.雏形：
·1990,Archie(档案检索系统);

·1993,蜘蛛程序（Spider）：一开始是为了统计服务器数量，后来可以捕获URL;

2.第一代搜索引擎：

·1994，Yahoo!的目录搜索引擎：建立自己的网络指南信息库，将网页分类，按主题进行分类索引，形成一个树形分类结构体系，

人工分类，因网页数量爆炸增加，工作量巨大，且无法根据网页内容进行搜索（2002年放弃）;

3.第二代搜索引擎：

使用蜘蛛程序在网络上自动捕获网页；

·1998，Google创立，99年提供搜索服务，推出PageRank,动态摘要，网页快照等功能革新；

·2000年，百度成立；

·2004年，Yahoo！重新推出新的搜索引擎；

b.分类：
1.分类目录；

2.全文搜索：

·拥有自己的检索程序，俗称“蜘蛛程序”，建立自己的网页数据库：

如：Google，百度；

·租用其它搜索引擎的数据库，并按自定的格式排列搜索结果，如Lycos;

·自动网页搜集：
如Google一般是28天；

或网页所有者主动向搜索引擎提供网址；

3.元搜索：关于搜索引擎的搜索引擎；

4.垂直；

5.集合式；

6.门户；

7.免费链接列表；

B.工作原理：

1.全文：

构成：搜索器，索引器，检索器，用户接口；

C.PageRank算法：

思想：

1.根据接入链接的数量和重要性；

2.根据外部链接和内部链接的数量和质量来觉得决定网页的重要性；

网页链接关系：

正向链接和反向链接；

计算思想：

1）在初始阶段：网页通过链接关系构建起Web图，每个页面设置相同的PageRank值，通过若干轮的计算，会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行，网页当前的PageRank值会不断得到更新。

2）在一轮中更新页面PageRank得分的计算方法：在一轮更新页面PageRank得分的计算中，每个页面将其当前的PageRank值平均分配到本页面包含的出链上，这样每个链接即获得了相应的权值。而每个页面将所有指向本页面的入链所传入的权值求和，即可得到新的PageRank得分。当每个页面都获得了更新后的PageRank值，就完成了一轮PageRank计算。

优化：1.来自链接工厂的网站不提供网页的PageRank，2.内容不相关的网页不提供PageRank，3降低PageRank的更新频率’

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。