开放源码的网络蜘蛛

http://microsoft.youkuaiyun.com/vs/dev%5Fcontest/Ms_rich_Detail.aspx?pointid=102

开发环境:Visual Studio 2005 语言:C++/CLI
作品所要解决的主要问题: 对于给定的网站列表,下载其所有网页到数据库,可以限制抓取深度和吞吐量。
存储的信息包括标题、内容、网页大小、抓取时间、链接数、连接数等等 。
作品的主要应用场景: 可用于数据采集、数据挖掘以及搜索引擎的前期工作。
基于IOCP模型构建,稳定性有保证。
而且有详细的开发文档。

使用说明:
1.直接点击bin目录下的WebSpiderEh.exe,即可开始抓取网站。
2.bin\db.mdb中的sites表配置您要抓取的网站,pages表保存抓取的结果。
3.maxDepth.txt中的数字控制抓取的深度。
4.throughput.txt中的数字控制蜘蛛的吞吐量,一般不用修改,如果您的网速很快,可以将数字调大一点。
谢谢使用,欢迎提出宝贵意见!

如果您下载后觉得好用,或者觉得源码对您有借鉴的价值,请投出您宝贵的一票。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值