这个开源项目与专门进行内网数据库搜索的lucene2.4版本相协调,在开源数据挖掘项目carrot2的支持下,运行在稳定版的
REDHAT-LINUX.5.5 SERVER 版本上面,可以实现对整个互联网的15层数据和代码的抓取-FETCH
这个开源项目有很多版本,其中真正可用的版本只有 nutch1.0 只有这个版本可用。。。
配好开源项目-apache-tomcat5.5 版本 和JDK1.6 ...在LINUX服务器上面可以稳定运行。。。
但是。。。。。这些开源项目的完整代码库和文档库现在在网络上已经下载不到了。。非常遗憾啊。。。
本文介绍了一个与Lucene 2.4版本协调的开源项目Nutch 1.0,该版本可在REDHAT-LINUX 5.5 SERVER上稳定运行,实现对互联网15层数据的抓取。项目依赖于Apache Tomcat 5.5和JDK 1.6,但遗憾的是,其完整代码库和文档库已难以在网络上找到。
4947

被折叠的 条评论
为什么被折叠?



