http://microsoft.youkuaiyun.com/vs/dev%5Fcontest/Ms_rich_Detail.aspx?pointid=102
开发环境:Visual Studio 2005 语言:C++/CLI
作品所要解决的主要问题: 对于给定的网站列表,下载其所有网页到数据库,可以限制抓取深度和吞吐量。
存储的信息包括标题、内容、网页大小、抓取时间、链接数、连接数等等 。
作品的主要应用场景: 可用于数据采集、数据挖掘以及搜索引擎的前期工作。
基于IOCP模型构建,稳定性有保证。
而且有详细的开发文档。
使用说明:
1.直接点击bin目录下的WebSpiderEh.exe,即可开始抓取网站。
2.bin\db.mdb中的sites表配置您要抓取的网站,pages表保存抓取的结果。
3.maxDepth.txt中的数字控制抓取的深度。
4.throughput.txt中的数字控制蜘蛛的吞吐量,一般不用修改,如果您的网速很快,可以将数字调大一点。
谢谢使用,欢迎提出宝贵意见!
如果您下载后觉得好用,或者觉得源码对您有借鉴的价值,请投出您宝贵的一票。
开发环境:Visual Studio 2005 语言:C++/CLI
作品所要解决的主要问题: 对于给定的网站列表,下载其所有网页到数据库,可以限制抓取深度和吞吐量。
存储的信息包括标题、内容、网页大小、抓取时间、链接数、连接数等等 。
作品的主要应用场景: 可用于数据采集、数据挖掘以及搜索引擎的前期工作。
基于IOCP模型构建,稳定性有保证。
而且有详细的开发文档。
使用说明:
1.直接点击bin目录下的WebSpiderEh.exe,即可开始抓取网站。
2.bin\db.mdb中的sites表配置您要抓取的网站,pages表保存抓取的结果。
3.maxDepth.txt中的数字控制抓取的深度。
4.throughput.txt中的数字控制蜘蛛的吞吐量,一般不用修改,如果您的网速很快,可以将数字调大一点。
谢谢使用,欢迎提出宝贵意见!
如果您下载后觉得好用,或者觉得源码对您有借鉴的价值,请投出您宝贵的一票。