
网络爬虫
文章平均质量分 80
moonsheep_liu
这个作者很懒,什么都没留下…
展开
-
用 web-harvest 挖掘需要的数据
首先,在官方网站下载web-harvest,目前最新版本是1.0,下载页面分三个下载包,分别是webharvest1-exe.zip,webharvest1-bin.zip,webharvest1-project.zip,他们没实质区别,第一个是包含了全部第三方包(一起打入了同一个jar文件直接可运行),第二个做为一个中间件出现,附带了所有独立的第三方jar包,第三个则是源码,当然要最大的灵活性自转载 2012-01-25 20:46:15 · 2243 阅读 · 1 评论 -
用web-harvest爬取yahoo!answers数据
关于web-harvest的使用,上篇转载的文章已经有简单的说明,本文主要以爬取yahoo!answers的数据为例,说明在使用过程中需要注意的问题。当然,最好的使用文档就是官方网站的user manual。 web-harvest有三个版本,这里用的是源码包。要完成数据的爬取,最重要的是配置config文件。源码包中有个Java类,Test.java,源代码如下: publ原创 2012-02-03 12:49:14 · 2957 阅读 · 2 评论