使用heritrix抓取特定页面

本文详细介绍了如何使用FrontierScheduler类来抓取特定网站内容的实践,包括创建自定义FrontierScheduler类、配置web管理界面、设置种子地址、选择合适的模块与参数,以及设置decide-rules等关键步骤。通过示例代码,展示了如何仅抓取包含mtime.com的URI。

扩展 FrontierScheduler 来抓取特定网站内容

FrontierScheduler 是 org.archive.crawler.postprocessor 包中的一个类,它的作用是将在 Extractor 中所分析得出的链接加入到 Frontier 中,以待继续处理。在该类的 innerProcess(CrawlURI) 函数中,首先检查当前链接队列中是否有一些属于高优先级的链接。如果有,则立刻转走进行处理;如果没有,则对所有的链接进行遍历,然后调用 Frontier 中的 schedule() 方法加入队列进行处理。

下面以抓取时光网为例:

package my.processor;

import java.util.logging.Logger;
import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.postprocessor.FrontierScheduler;

public class FrontierSchedulerForMtime extends FrontierScheduler {


private static final long serialVersionUID = 1L;

private static Logger LOGGER = Logger
.getLogger(FrontierSchedulerForMtime.class.getName());

public FrontierSchedulerForMtime(String name) {
super(name);
// TODO Auto-generated constructor stub
}
protected void schedule(CandidateURI caUri){
String uri = caUri.toString();
//只抓取包含"mtime.com"的URI
if(uri.contains("mtime")){
System.out.println(uri);
getController().getFrontier().schedule(caUri);
}
else
{
return;
}
}

}


使用web管理界面设置

新建一个JOB,对照用户说明和每个设置项的说明设置相应的模块,对于抓取特定页面的任务关键点有:填写好种子地址,确保通过种子地址可以分析到你想要的页面,这里可以放入多个种子,一行一个。

模块选择中,crawl scope选择org.archive.crawler.deciderules.DecidingScope,Extractors Processors 根据自己要求选择:org.archive.crawler.extractor.ExtractorHTTP首先要选择且放在首位,org.archive.crawler.extractor.ExtractorHTML也为必需,其他的可以全部移除,Writers Processors :如果是要保存为arc文档格式的选择ARCWriterProcessor,如果直接保存镜像文件的选择MirrorWriterProcessor,具体的保存地址在具体的设置里会有,也可以同时选择几种文件保存方式,heritrix会同时完成,其它的设置默认即可。

在子模块部分decide-rules 加入MatchesListRegExpDecideRule,其它默认。 在具体设置里需要注意的是:seeds-as-surt-prefixes设为false,MatchesListRegExpDecideRule的regexp-list主要设置需要抓取页面的特定格式,可以使用正则表达式,其中.*匹配多个字符,(如果对正则表达式不熟悉可以在http://localhost:8080/help/regexpr.jsp页面进行测试) max-hops的值表示从种子地址开始抓取的深度,这个需要根据实际情况修改,默认值为20.

下载前可以先看下教程 https://pan.quark.cn/s/a426667488ae 标题“仿淘宝jquery图片左右切换带数字”揭示了这是一个关于运用jQuery技术完成的图片轮播机制,其特色在于具备淘宝在线平台普遍存在的图片切换表现,并且在整个切换环节中会展示当前图片的序列号。 此类功能一般应用于电子商务平台的产品呈现环节,使用户可以便捷地查看多张商品的照片。 说明中的“NULL”表示未提供进一步的信息,但我们可以借助标题来揣摩若干核心的技术要点。 在构建此类功能时,开发者通常会借助以下技术手段:1. **jQuery库**:jQuery是一个应用广泛的JavaScript框架,它简化了HTML文档的遍历、事件管理、动画效果以及Ajax通信。 在此项目中,jQuery将负责处理用户的点击动作(实现左右切换),并且制造流畅的过渡效果。 2. **图片轮播扩展工具**:开发者或许会采用现成的jQuery扩展,例如Slick、Bootstrap Carousel或个性化的轮播函数,以达成图片切换的功能。 这些扩展能够辅助迅速构建功能完善的轮播模块。 3. **即时数字呈现**:展示当前图片的序列号,这需要通过JavaScript或jQuery来追踪并调整。 每当图片切换时,相应的数字也会同步更新。 4. **CSS美化**:为了达成淘宝图片切换的视觉效果,可能需要设计特定的CSS样式,涵盖图片的排列方式、过渡效果、点状指示器等。 CSS3的动画和过渡特性(如`transition`和`animation`)在此过程中扮演关键角色。 5. **事件监测**:运用jQuery的`.on()`方法来监测用户的操作,比如点击左右控制按钮或自动按时间间隔切换。 根据用户的交互,触发相应的函数来执行...
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值