153day(网络搜索问题)

本文回顾了搜索引擎的发展历程,从1990年的Archie到Google和百度等现代搜索引擎的出现。详细介绍了搜索引擎的工作原理及其分类,并重点解析了Google的PageRank算法,包括其计算思想和优化方法。

《2018年3月13日》【连续153天】

标题:网络搜索问题;
内容:

A.搜索引擎:
a.历史:

1.雏形:
·1990,Archie(档案检索系统);

·1993,蜘蛛程序(Spider):一开始是为了统计服务器数量,后来可以捕获URL;

2.第一代搜索引擎:

·1994,Yahoo!的目录搜索引擎:建立自己的网络指南信息库,将网页分类,按主题进行分类索引,形成一个树形分类结构体系,

人工分类,因网页数量爆炸增加,工作量巨大,且无法根据网页内容进行搜索(2002年放弃);

3.第二代搜索引擎:

使用蜘蛛程序在网络上自动捕获网页;

·1998,Google创立,99年提供搜索服务,推出PageRank,动态摘要,网页快照等功能革新;

·2000年,百度成立;

·2004年,Yahoo!重新推出新的搜索引擎;

b.分类:
1.分类目录;

2.全文搜索:

·拥有自己的检索程序,俗称“蜘蛛程序”,建立自己的网页数据库:

如:Google,百度;

·租用其它搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos;

·自动网页搜集:
如Google一般是28天;

或网页所有者主动向搜索引擎提供网址;

3.元搜索:关于搜索引擎的搜索引擎;

4.垂直;

5.集合式;

6.门户;

7.免费链接列表;

 

B.工作原理:

1.全文:

 

构成:搜索器,索引器,检索器,用户接口;

 

C.PageRank算法:

思想:

1.根据接入链接的数量和重要性;

2.根据外部链接和内部链接的数量和质量来觉得决定网页的重要性;

网页链接关系:

正向链接和反向链接;

计算思想:

1)在初始阶段:网页通过链接关系构建起Web图,每个页面设置相同的PageRank值,通过若干轮的计算,会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行,网页当前的PageRank值会不断得到更新。

2)在一轮中更新页面PageRank得分的计算方法:在一轮更新页面PageRank得分的计算中,每个页面将其当前的PageRank值平均分配到本页面包含的出链上,这样每个链接即获得了相应的权值。而每个页面将所有指向本页面的入链所传入的权值求和,即可得到新的PageRank得分。当每个页面都获得了更新后的PageRank值,就完成了一轮PageRank计算。


优化:1.来自链接工厂的网站不提供网页的PageRank,2.内容不相关的网页不提供PageRank,3降低PageRank的更新频率’

 

 

 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值