WebGet2——自动爬网页工具

本文介绍了一款基于正则表达式的网页爬虫工具,通过设置白名单和黑名单规则实现精准抓取目标网页内容,包括文字、图片及附件等资源,并提供了程序下载及源代码。

通过正则表达式作为规则,筛检白名单和黑名单以控制访问网页路径,不断自动访问符合条件的网址。可附带下载资源文件。

此程序适合挂机伪装普通用户、挂机博客互踩、挂机论坛下载图片、附件等应用。

image

image

使用方法:

首先建立白名单访问规则,比如我们要爬CnBeta的网页,就这样设置,然后点击“在页面中验证”按钮测试符合规则的链接:

image

然后,如果我们不希望重复爬到编辑推荐的内容的话,就在黑名单中这样设置并验证:

image

然后点击“开始获取”,程序就开始自动爬了。

其他设置自行尝试吧,都比较简单了。

 

程序下载:http://www.uushare.com/user/icesee/file/2743570

源代码下载:http://www.uushare.com/user/icesee/file/2743571


本文转自斯克迪亚博客园博客,原文链接:http://www.cnblogs.com/SkyD/archive/2010/03/18/1688990.html,如需转载请自行联系原作者

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值