聚焦爬虫的工作原理

聚焦爬虫的工作流程比较复杂,需要根据一定的网页分析算法过滤与主题无关的网页,保存有用的连接并且添加到等待抓取得url对列中,并根据一定的搜索策略从等待队列中选择下一步要抓取的连接。重复着一个过程,直到满足一定条件为止。

主要解决问题有:对抓取目标的描述和定义。对网页的分析及过滤,对url的搜索策略。

网页分析算法:一、基于网络拓扑结构的算法 分析算法简单,主题度较低。

1、基于网页粒度的分析算法:常见的有pagerank及hits算法

2、基于网站粒度的分析算法:siterank

3、网页块级的分析算法。

二、基于网页内容的分析算法

1、基于文本的分析算法

2、对隐藏网页的分析算法

三、基于用户协作的网页分析算法:用户评价决定搜索次序。

四、基于领域概念的定制网页评价算法:该算法通过定义领域并进行搜索,克服了最佳有限局部的搜索方法的局部性,提高抓取的准确性 

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值