
Heritrix
nizaina_0
这个作者很懒,什么都没留下…
展开
-
Heritrix源码分析(四) 各个类说明(一)
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/630347 本博客已迁移到本人独立博客: http://www.yun5u.com/ 欢迎加入Heritrix群(QQ):109148319,10447185 , Lucene/Solr群(QQ) : 118972724转载 2012-11-14 15:27:05 · 503 阅读 · 0 评论 -
Heritrix源码分析(六) Heritrix的文件结构分析
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/642618 每通过Heritrix运行一次抓取后,发现在该Job目录下就会有很多文件。这里说明下每个文件的作用,同时更主要介绍它的日志文件,因为我们可以通过日志文件发现Heritrix的抓取情况。首先贴个图转载 2012-11-14 15:36:28 · 466 阅读 · 0 评论 -
Heritrix源码分析(九)
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/644396 前面说过Heritrix可以在某个抓取基础上(这里假设为A)继续抓取,因为Heritrix对每一个URL都会有相应的日志处理,同时还有checkpoint(备份中心)。所以只要通过A上的日志就可以完全按照该基础A继续抓取,不会重复抓取任何A抓过的转载 2012-11-14 15:46:29 · 427 阅读 · 0 评论 -
Heritrix源码分析(十) Heritrix中的Http Status Code(Http状态码)
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/649737 以前在做Web开发的时候就接触过一些HttpStatus Code,比如404,500.后来接触Heritrix之后才知道HttpStatus Code竟然有如此之多。不一样的HttpStatus Code就代表不一样的Http状态,简单的如成功转载 2012-11-14 15:48:38 · 543 阅读 · 0 评论 -
Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/650744 本博客已迁移到本人独立博客: http://www.yun5u.com/ 上一篇博客主要介绍了CrawlController的各个属性,博客地址:http://guoyunsky.iteye.com/blog/650744 ,以转载 2012-11-14 15:54:49 · 680 阅读 · 0 评论 -
Heritrix源码分析(三) 修改配置文件order.xml加快你的抓取速度
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/629891 本博客已迁移到本人独立博客: http://www.yun5u.com/ Heritrix的order.xml分了很多组件,可以灵活的配置各个抓取参数。但很多人都关心如何使得抓取更快更久更多,这里首先从Heritrix转载 2012-11-14 15:23:08 · 394 阅读 · 0 评论 -
Heritrix源码分析(一) 包介绍
本博客属原创文章,欢迎转载!但转载请务必注明出处:http://guoyunsky.iteye.com/blog/613249 本博客已迁移到本人独立博客: http://www.yun5u.com/ 之前说过要分享下我的爬虫经验,但一直找不到突破口,现在才感觉写点东西真的很难,所以大家真的要感谢那些无私的前辈们,在网上留下的一篇篇可以指点迷津的文章。 想了很久,还是先从H转载 2012-11-14 15:00:01 · 505 阅读 · 0 评论 -
Heritrix源码分析(十二) Heritrix的控制中心(大脑)CrawlController(一)
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/650694 CrawlController的确是Heritrix的大脑,在Heritrix中拥有无上的权利!可以控制Heritrix的启动、暂停、停止,也定时进行数据统计、数据汇报和文件管理。同时CrawlController也基本上贯穿整个Heritr转载 2012-11-14 15:53:27 · 337 阅读 · 0 评论 -
Heritrix源码分析(五) 如何让Heritrix在Ecplise等IDE下编程启动
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/642550 在Heritrix注释里说Heritrix有三种启动方式,但我感觉只有两种:一种是通过tomcat或者JBOSS或者Jetty等Web容器,还有一种自然就是不通过Web直接编程运行。由于第二种方式更适合调试、研究代码,所以转载 2012-11-14 15:34:54 · 454 阅读 · 0 评论 -
Heritrix源码分析(八) Heritrix8个处理器(Processor)介绍
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/643367 Heritrix采用多线程去抓取数据,每次运行基本都要经过以下8个处理器处理(种子URL、先决条件URL除外),如此形成一整个流程。下面就大概介绍下每个处理器的作用以及大概处理的步骤。以后分析源码的时候再细节分析.转载 2012-11-14 15:42:42 · 286 阅读 · 0 评论 -
Heritrix源码分析(十一) Heritrix中的URL--CandidateURI和CrawlURI以及如何增加自己的属性
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/649889 Url是爬虫的核心,因为爬虫就是依赖URL一层一层的抓取下去,最后完成整个抓取。Heritrix中的URL比较特殊,有以下继承关系(由于不对继承关系作介绍,所以这里就不画图了): 1)org.archive.crawl转载 2012-11-14 15:50:19 · 355 阅读 · 0 评论 -
Heritrix源码分析(二) 配置文件order.xml介绍
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/613412 本博客已迁移到本人独立博客: http://www.yun5u.com/ order.xml是整个Heritrix的核心,里面的每个一个配置都关系到Heritrix的运行情况,没读源码之前我只能从有限的渠道去获知这些配置的运用.读完之后才知转载 2012-11-14 15:07:45 · 668 阅读 · 0 评论 -
Heritrix源码分析(十四) 如何让Heritrix不间断的抓取
近段时间在搞定Lucene的一些问题,所以Heritrix源码分析暂时告一段落。今天下午在群里有同学提到了Heritrix异常终止的问题以及让Heritrix不停的抓取(就是抓完一遍后载入种子继续抓取,目前他是写个定时器,定时检查Heritrix是否停止,如果停止了则重新初始化Heritrix,让Heritrix重新抓取,但这个方法就不可避免的会导致抓取重复URl,除非从recover.gz导入)转载 2012-11-14 15:56:06 · 407 阅读 · 0 评论 -
Heritrix源码分析(七) Heritrix总体介绍
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/642794 本博客已迁移到本人独立博客: http://www.yun5u.com/ 欢迎加入Heritrix群(QQ):109148319,10447185 , Lucene/Solr群(QQ) : 118972724转载 2012-11-14 15:39:12 · 343 阅读 · 0 评论 -
Heritrix源码分析(四) 各个类说明(二)
9.org.archive.crawler.fetcher序号类说明1FetchDNS获取DNS数据,如IP2FetchFTP获取FTP数据3FetchHTTP获取HTTP数据4HeritrixHttpMethodRetryHandlerHTTP重试处理器,重新去连接HTTP转载 2012-11-14 15:33:08 · 497 阅读 · 0 评论 -
HBase简介(很好的梳理资料)
一、 简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop转载 2012-11-20 14:51:53 · 350 阅读 · 0 评论