一些搜索引擎方面的个人笔记

当今SEO非常popular,在此我记录了一些看搜索引擎书籍后的笔记。

SEO的要求以及特点可以用:查的快、查的准、查的全来概述,了解SEO首先从他的下载系统开始说起,所有的网站信息首先通过下载系统获得,那么让我从spider说起,也就是大家所知的爬虫,通过它来介绍下载系统。说起抓起网页,可以分为深度优先遍历、宽度优先遍历,那么网站url的复杂性如何能让爬虫更好的抓取呢?

1992年,Rivest描述了MD5签名算法的原理,把爬虫抓取到的信息存放到哈希表的某一个槽位中,通过判断,解决不重复抓取的问题。但是仍然存在问题,万维网错中复杂,存在很多路径可以到达指定的网页,因此解决这个也是个难题,在这里,采用深度策略跟宽度优先遍历相结合的方法来保证抓取过程。

但是爬虫工作负荷有限,必须有选择的抓取重要度高的网页,因此出现了网页抓取有限策略,重要性度量由链接欢迎度、链接重要度和平均链接深度3个方面决定。同时为了及时的了解每个网页的变化,网页重放策略也很重要。爬虫在抓取的过程要遵守Robots协议,介于到爬虫大得工作负荷,抓取速度的提升也至关重要,抓取提速策略,下载系统主要通过爬虫以及调度员构成,下载系统中的网页库非常重要,具体的可以查询相关资料。以上是我对SEO----下载系统的心得笔记。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值