
爬虫heritrix
qzxfl008
学生
展开
-
heritrix中ExtractorJS扩展源代码
以下是heritrix中对JS的扩展,在自己写扩展的时候可以参考这个源代码或值对html或css扩展的源代码[code="java"]/* Copyright (C) 2003 Internet Archive. * * This file is part of the Heritrix web crawler (crawler.archive.org). * * He...原创 2011-05-31 18:34:30 · 181 阅读 · 0 评论 -
Crawl Scope 抓取范围
[size=medium]提供以下几种抓取的范围[/size][color=red]1、BroadScope[/color]BroadScope可以限制抓取的链接数,但不强加给主机,域,或URI路径中的任何限制抓取。简单的说:什么路径都可以抓[color=red]2、SurtPrefixScope[/color]一个高度灵活和公正高效的范围内可以根据配置定义抓取域,个别...2011-06-01 15:01:22 · 172 阅读 · 0 评论 -
heritrix文档上的一个例子,放这备用
[code="java"]package mypackage;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.Iterator;import java.util.List;import java.util.Map;i...原创 2011-06-02 18:49:05 · 112 阅读 · 0 评论 -
An example processor
[code="java"]package org.archive.crawler.extractor;import java.util.regex.Matcher;import javax.management.AttributeNotFoundException;import org.archive.crawler.datamodel.CoreAttributeCon...原创 2011-06-02 20:11:31 · 95 阅读 · 0 评论 -
ELF hash算法 java版
在Heritrix的 Queue-assignment-policy的设置中。当我们设置了在特定的域名下爬行的时候,经常会碰到永远只有一个线程在运行的情况,导致爬行十分缓慢。这是因为Heritrix默认使用HostnameQueueAssignmentPolicy来产生key值,从这个策略的名字,我们也可以很容易的看出,key跟hostname是有关系的。而事实上,这个策略正是用hostnam...2011-06-08 14:30:50 · 334 阅读 · 0 评论 -
Heritrix抓取hexun网上的stock信息
使用Heritrix抓取必须的三个文件order.xml,seeds.txt和state.job之前使用的是ui配置order.xml,现在已经能抓取自己想要的文件了,就直接把order.xml拿来用修改一下就可以了,order.xml代码如下[code="java"] personstock hexunstockInformation Admin...2011-07-18 20:23:22 · 184 阅读 · 0 评论 -
html解析页面中的A标签
在heritrix中的自定义继承Extractor的类中,参考那本《开发自己的搜索引擎里》书里的代码,不能很好的解析出页面中的A标签中的url,就用htmlparser来解析出A标签里的url,果然好用。代码如下[code="java"]private void filterURL(String source,CrawlURI curi) { try { Parse...2011-11-05 21:20:11 · 186 阅读 · 0 评论