
heritrix
iteye_17257
这个作者很懒,什么都没留下…
展开
-
heritrix入门及配置
如果需要定制,就需要在eclipse下面安装运行。安装步骤:一、需求文件 heritrix-1.41.3-src.zip heritrix-1.14.3.zip 在http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980可以下载二、准备 把下载的两个文件分...2010-04-02 10:44:07 · 141 阅读 · 0 评论 -
转 互联网反爬虫策略
因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。 一些智能的搜索引擎爬虫的爬取频率比较合理,对网站资源消耗比较少,但是很多糟糕的网络爬虫,对网页爬取能力很差,经常并发几...原创 2010-08-05 16:41:43 · 123 阅读 · 0 评论 -
爬虫被封原因
各大网站爬虫'Googlebot', // Google 爬虫 'Baiduspider', // 百度爬虫 'Yahoo! Slurp', // 雅虎爬虫 'YodaoBot', // 有道爬虫 'msnbot' // Bing爬虫 // 更多爬虫关键字有一些网站会判断你的user-agent如果是属于爬虫就会返回禁止爬虫这类的页面,或者直接屏蔽~...原创 2010-08-05 13:40:35 · 633 阅读 · 0 评论 -
网站防爬虫
转下面的这些方法是可以标本兼治的:1、详细出处参考:http://www.jb51.net/yunying/28470.html、限制IP地址单位时间的访问次数 分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了。 弊端:一刀切,这同样会阻止搜索引擎对网站的收录 适用网站:不太依靠搜索引擎的网站 采集器会...原创 2010-08-05 11:36:18 · 275 阅读 · 0 评论 -
Heritrix 学习笔记1.Heritrix defined codes
本文为博主翻译,转载请注明出处。如有翻译不妥,请指出以便改正,谢谢。1 Successful DNS lookup DNS 查找成功0 Fetch never tried (perhaps protocol unsupported or illegal URI) 从未获取(可能协议未授权或者不合法URI)-1 DNS lookup failed DNS 查找失败...2010-07-13 20:06:26 · 148 阅读 · 0 评论 -
Heritrix去重
heritrix 判断去重 在 package org.archive.crawler.util;下面的BdbUriUniqFilter 的setadd方法其实heritrix的抓取过的URL都保存在BDB中然后通过boolean来判断是否加入到队列...原创 2010-06-13 11:03:14 · 118 阅读 · 0 评论 -
Heritrix中的SURT和SurtPrefixedDecideRule
在Heritrix中,如果我们需要抓取指定host的网页,需要用到SurtPrefixedDecideRule这个规则。这里根据Heritrix的文档,解释一下SURT。SURT全称是Sort-friendly URI Reordering Transform。目的是将一个URL转换成更方便的格式进行处理。....SURT类可以将下面这种形式的URL:...原创 2010-11-17 16:31:51 · 153 阅读 · 0 评论 -
heritrix设计详解(一) 总述
[b][color=red]原创文章:转载请注明出处[/color][/b]读了一段时间的源码,结合网上的文档和自己的理解来详解下heritrix的体系结构,总体来说hertitrix是一个设计优良的框架,扩展性极强,除了无法实现分布式之外,其他部件都可以被扩展。[b]体系结构[/b]CrawlController(下载控制器):整个下载过程的总的控制者,整个抓取工作的起点,决...2010-11-17 10:39:35 · 181 阅读 · 0 评论 -
spider技术综述
转自soso 出处:http://blog.youkuaiyun.com/soso_blog/archive/2010/07/28/5771350.aspx Spider系统是搜索引擎当中进行互联网上数据采集的一个核心子系统。在这个子系统当中,通常先种入一批种子Url,Spider对这些种子Url采集之后将链接提取入库,然后再对新入库的Url进行采集,并且负责对采集过的Url进行更新采集,如此循环...原创 2010-11-12 10:41:02 · 118 阅读 · 0 评论 -
Heritrix源码之 处理链
heritrix源码真不是一般的复杂,但是一点一点解析的话还是能看懂的处理链是heritrix里面最重要的地方之一,对页面的操作都通过处理链完成,其配置的灵活程度和通用性十分强大。别的程序也可以借鉴哦~~~ProcessorChainList 处理器链集合,包含多个处理器链,每个URL都会有这样一个处理器集合,使得先从该集合中获取处理器链,然后再从处理器链中获取每个处理器,最后让每...2010-11-09 18:09:48 · 246 阅读 · 0 评论 -
heritrix无法抓取中文URL的问题解决方案
Heritrix对中文支持不够,比如URL中有中文的URL肯定抽取不到,但这个改动部分代码页就是它的正则表达式即可解决方法修改org.archive.crawler.extractor.ExtractorJS类把 static final String STRING_URI_DETECTOR = "(?: \\w|[\\.]{0,2}/)[\\S&&[^]]*(?:\\...原创 2010-05-10 13:55:03 · 112 阅读 · 0 评论 -
Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)
[color=red]转自:http://guoyunsky.iteye.com/blog/650744[/color] 1.Heritrix的初始化:[code="java"]/** * 初始化CrawlController * @param sH 配置文件(order.xml)对象 * @throws InitializationException 初始化异常 */ pub...原创 2010-11-04 10:58:07 · 170 阅读 · 0 评论 -
爬虫基本原理及概念
爬虫在网络中爬行的时候,将Web 上的网页集合看成是一个有向图,从给定的起始URL 开始,沿着网页中的链接,按照一定的策略进行。通常用到以下几种遍历算法:1、深度优先算法该算法是指网络爬虫会从选定的一个超链接开始,按照一条线路,一个一个链接访问下去,直到达到这条线路的叶子节点,即不包含任何超链接的HTML 文件,处理完这条线路之后再转入下一个起始页,继续访问新的起始页面所包含的...原创 2010-10-22 17:35:52 · 562 阅读 · 0 评论 -
heritrix 多个job合并的方案
heritrix job太多,却想要合并怎么办?很简单1.合并seeds文件,把多个job的seed拷到一起2.合并Scheduler里面的正则3.合并recover.gz4.合并mirror里面下载下来的文件关于recover.gz,可以调用heritrix自带的工具类RecoveryJournal...2010-04-02 11:34:47 · 138 阅读 · 0 评论 -
继续抓取的一些问题及解决方案
采用哪个继续抓取会遇到一些小问题,1.recover.gz在每次启动的时候会删除原有的,然后重建。丢失以前所存储的链接!2.每次启动的时候,会丢失很多页面,因为heritrix抓取过的页面是不会在抓取,这样的话也不会在解析,比如报价这类页面,那我们就无法更新了!3.如何启动heritrix的UI第一个问题只要改一下order.xml下面几个值这样设置 recover...2010-04-02 11:31:16 · 108 阅读 · 0 评论 -
heritrix在原有基础上抓取
抓取的时候死机或者意外停止时很正常的事情不过遇到这类问题不用担心,heritrix提供了一个方法,就是Based on a recovery 这个就是在原有的基础上继续抓取,可是他又一个缺点就是每次抓取都是一个新的job统计起来确实很麻烦!!原理大家也都知道,heirtrix把所有获取的链接都放入recover.gz这个文件,里面存储了不同的格式"F+ 进入调度器里的URL...2010-04-02 11:23:36 · 145 阅读 · 0 评论 -
job配置经验分享
我们常常会遇到一个问题,就是明明别人网站链接这么多,为什么我们抓取到的却这么少?或者说抓取速度如此蜗牛?下载到的链接都不是我们想要的?下面我们一点点来解决!下载到的链接太少 其实是域限制太窄,比如限制在DecidingScope这样的话,如果入口散列在其他的二级域名的话,我们就无法抽取到这个链接,导致我们下载到的东西太少个人建议用BroadScope可是如果用了broadsc...2010-04-02 10:59:56 · 149 阅读 · 0 评论 -
elfhash多线程抓取
1.添加了org.archive.crawler.frontier.ELFHashQueueAssignmentPolicy.javapublic class ELFHashQueueAssignmentPolicy extends QueueAssignmentPolicy { private static final Logger logger = Logger .getL...2010-04-02 10:49:31 · 189 阅读 · 0 评论 -
heritrix 下载不通过服务器缓存
最近爬虫下载论坛时出现了一些奇怪的问题。1.下载一半就无法下载2.下载了很多空页面,提示说页面不存在问题一:原因分析,由于网站对一个IP在一个时间片内访问太频繁,导致封IP。解决方案:减缓爬虫下载间隔,多个网站一起下载,而且网站越多越好,可以错开下载。问题二:初步分析,下载的页面是html的,怎么可能有这个问题?因为下载的论坛是开源的discuz,我们都知道discuz...原创 2010-08-08 19:53:22 · 84 阅读 · 0 评论