网络爬虫 学习2

那么依据特征,其实也就是要求了,如何设计爬虫呢?要注重哪些步骤呢?  
1】 url 的遍历和纪录 
这点 larbin 做得非常的好,其实对于url的遍历是很简单的,例如: 
cat [what you got]| tr \" \\n | gawk '{print $2}' | pcregrep ^http:// 
就可以得到一个所由的 url 列表  
2】多进程 VS 多线程 
各有优点了,现在一台普通的PC 例如 booso.com 一天可以轻松爬下5个G的数据。大约20万网页。  
3】时间更新控制 
最傻的做法是没有时间更新权重,一通的爬,回头再一通的爬。 
通常在下一次爬的的数据要跟上一次进行比较,假如连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍。 

假如一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。 

注重,效率是取胜的要害之一。  
4】爬的深度是多少呢? 
看情况了。假如你比较牛,有几万台服务器做网络爬虫,我劝您跳过这一点。 
假如你同我一样只有一台服务器做网络爬虫,那么这样一个统计您应该知道: 

网页深度:网页个数:网页重要程度 
0 : 1 : : 10 
1 :20 : :8 
2: :600: :5 
3: :2000: :2 
4 above: 6000: 一般无法计算 

好了,爬到三级就差不多了,再深入一是数据量扩大了3/4倍,二是重要度确下降了许多,这叫做“种下的是龙种,收获的是跳蚤。” 

5】爬虫一般不之间爬对方的网页,一般是通过一个Proxy出去,这个proxy有缓解压力的功能,因为当对方的网页没有更新的时候,只要拿到 header 的 tag就可以了,没有必要全部传输一次了,可以大大节约网络带宽。 

apache webserver里面纪录的 304 一般就是被cache的了。  
6】请有空的时候照看一下robots.txt  
7】存储结构。 
这个人人见智,google 用 gfs 系统,假如你有7/8台服务器,我劝你用NFS系统,要是你有70/80个服务器的话我建议你用afs 系统,要是你只有一台服务器,那么随便。 

给一个代码片断,是我写的新闻搜索引擎是如何进行数据存储的:  
NAME=`echo $URL |perl -p -e 's/([^\w\-\.\@])/$1 eq "\n" ? "\n":sprintf("%%%2.2x",ord($1))/eg'` 
mkdir -p $AUTHOR 
newscrawl.pl $URL --user-agent="news.booso.com+(+http://booso.com)" -outfile=$AUTHOR/$NAME 

Posted at November 10, 2004 01:04 PM by Liang at 01:04 PM | Comments (2) | TrackBack(0) | Booso!| 
====================================== 
爬网这个词你可以理解为"建立索引",各大搜索引擎现在都用爬网这个词,都可以理解为建立索引这个意思
内容概要:本文提出了一种基于融合鱼鹰算法和柯西变异的改进麻雀优化算法(OCSSA),用于优化变分模态分解(VMD)的参数,进而结合卷积神经网络(CNN)与双向长短期记忆网络(BiLSTM)构建OCSSA-VMD-CNN-BILSTM模型,实现对轴承故障的高【轴承故障诊断】基于融合鱼鹰和柯西变异的麻雀优化算法OCSSA-VMD-CNN-BILSTM轴承诊断研究【西储大学数据】(Matlab代码实现)精度诊断。研究采用西储大学公开的轴承故障数据集进行实验验证,通过优化VMD的模态数和惩罚因子,有效提升了信号分解的准确性与稳定性,随后利用CNN提取故障特征,BiLSTM捕捉时间序列的深层依赖关系,最终实现故障类型的智能识别。该方法在提升故障诊断精度与鲁棒性方面表现出优越性能。; 适合人群:具备一定信号处理、机器学习基础,从事机械故障诊断、智能运维、工业大数据分析等相关领域的研究生、科研人员及工程技术人员。; 使用场景及目标:①解决传统VMD参数依赖人工经验选取的问题,实现参数自适应优化;②提升复杂工况下滚动轴承早期故障的识别准确率;③为智能制造与预测性维护提供可靠的技术支持。; 阅读建议:建议读者结合Matlab代码实现过程,深入理解OCSSA优化机制、VMD信号分解流程以及CNN-BiLSTM网络架构的设计逻辑,重点关注参数优化与故障分类的联动关系,并可通过更换数据集进一步验证模型泛化能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值