网络爬虫的分析算法

爬虫节点爬取到的网页数据会存放到资源库中,资源库对爬取到的数据进行分析并建立索引,分析算法有以下几种

(1) 基于用户行为的分析算法:根据用户对网页的访问频率 、访问时长 、点击率等对网页数据进行分析
(2) 基于网络拓扑的分析算法:根据网页的外链 、网页的层次 、网页的等级等对网页数据进行分析,计算出网页的权重,对网页进行排名
(3) 基于网页内容的分析算法:根据网页的外观 、网页的文本等内容特征对网页数据进行分析

 

 

 

 

 

 

     

转载于:https://www.cnblogs.com/pzk7788/p/10530849.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值