在SourceForge.net中,java的网路爬虫比较多,C++的比较少,下面几个是与C++的有关的网络爬虫(spider,crawler)
Universal Information Crawler
http://sourceforge.net/projects/uicrawler/ (C++)
URL Web Crawler
http://sourceforge.net/projects/ultrafly/ (还没下载到)
larbin (比较有名)
http://sourceforge.net/projects/larbin/ (C++)
crwlr
http://sourceforge.net/projects/crwlr/ (C++)
C++ web crawler library
http://sourceforge.net/projects/arachne/
应该重点看下larbin,比较有名,网络上的资料也比较多,与clucene结合,构成整个搜索引擎。其次可以看一下crwlr,个人认为。这几天重点分析larbin。