最近在研究Nutcha的爬虫和解析,在windows中利用cygwin执行nutch爬取网页。
那么爬取到的数据如何取到自己的程序中来使用呢?
参考了以下博主的内容,不过博主太懒没有任何文字描述。
http://blog.youkuaiyun.com/java_boke/article/details/7789160
将上面的代码拷到自己的程序中(eclipse),还需要导入hadoop相关的jar包,
我是在下面的官网下载了hadoop-1.0.3.tar.gz,然后用cygwin执行解压命令( tar -xzvf hadoop-1.0.3.tar.gz hadoop-1.0.3 )。
http://archive.apache.org/dist/hadoop/core/
将解压后得到的lib文件中所有jar文件全部加到eclipse工程中,最后还要加入
hadoop-core-1.2.0.jar
nutch-1.2.jar
再有就是别忘记修改61行代码里data的正确目录,就是爬下来的数据
L61:String file = "C:/nutch-1.0/crawled/segments/20100624073431/content/part-00000/data";
然后就可以执行class了。