
JSpider
文章平均质量分 64
Oswin
安静的思考,踏实的走路
展开
-
JSpider学习四 —— Spider
在代码里Spider是一个接口,其中只包含public void crawl(SpiderContext context)这一个方法,含义比较明显,在给定的上下文中爬行。 代码里只有一个实现类SpiderImpl,成员如下: WorkerThreadPool spiders,爬虫线程池; WorkerThreadPool thinkers,思考者线程池。初始化方法原创 2012-02-09 21:51:29 · 1649 阅读 · 0 评论 -
JSpider学习一 —— 基础
为了更好的掌握Java,我开始学习JSpider这个开源软件,希望能从它的设计和实现上,更清楚的认识Java,了解更多Java的设计和实现技巧,以点带线,以线带面,去了解更多自己需要学习的东西。 作为开始,我下载并阅读了JSpider User Manual的前半部分,下载了源码。 根据文档的说明编译源码,遇到了错误,参照http://blog.nunnun.jp/Jspider原创 2012-02-09 14:41:25 · 3766 阅读 · 0 评论 -
JSpider学习二 —— 应用示例
首先学习JSpider的第一个应用,Check Errors,用来检查网页上的链接以及迭代出来的其他链接是否有效。 使用命令JSpider [url] [CheckErrors]。这里url指要检查的链接,CheckErrors指实现该功能的配置文件目录。 可见,使用的关键就是配置文件的编写。 配置文件一般放在conf/下面。实现CheckErrors功能的配置文件就原创 2012-02-09 17:05:14 · 3937 阅读 · 1 评论 -
JSpider学习三 —— 启动代码分析
jspider.sh---------------------------------------------------------------------------------------------- JSpider从jspider.sh文件运行,在该shell脚本中指定了如下几个变量: JSPIDER_HOME,JSpider的主目录,通过该目录去寻找conf/、原创 2012-02-09 18:18:21 · 2475 阅读 · 0 评论 -
JSpider学习五 —— WorkerThreadPool
之前提到SpiderImpl的两个重要成员spiders和thinkers,他们都是WorkerThreadPool类的实例,下面分析这个类的代码。 该类继承了java.lang.ThreadGroup类,有三个成员: /** Task Dispatcher thread associated with this threadpool. */ protected Di原创 2012-02-10 09:54:57 · 1578 阅读 · 0 评论 -
JSpider学习六 —— DispatcherThread和WorkerThread
DispatcherThread-------------------------------------------------------------------------------- DispatcherThread继承了java.lang.Thread类,包含了两个成员: protected DispatcherTask task; // 分派器任务实例原创 2012-02-13 12:56:49 · 1839 阅读 · 0 评论 -
JSpider学习七——调试SpiderImpl的crawl
从main的第一句,走到最后,进入JSpider的start方法中,调用SpiderImpl的crawl。 前面对crawl做了分析,这里不重复流水了。context.getEventDispatcher().dispatch(new SpideringStartedEvent(context.getBaseURL()))将Spider开启事件派发出去,然后进入context.getAg原创 2012-03-23 21:31:34 · 976 阅读 · 0 评论 -
JSpider的调试
经过了毕设、换工作等等的事情,重新来看看这个JSpider,希望能完成对它的学习。 重新看JSpider,有了新的思路。打算从一个具体的应用实例入手,从调试过程理解它的原理和设计。 (1) 回顾下怎么在eclipse里面导入JSpider。New-->Project-->Java Project from Existing Ant Builder。 (2) 配原创 2012-03-23 20:14:52 · 1542 阅读 · 0 评论