Heritrix之旅之Processor

 

原文链接:http://www.cnblogs.com/MichaelYin/archive/2011/10/10/2205699.html

实际的url的处理是在toethread中进行的,toethread从Frontier中请求待处理的url,并将其放到一系列Processor中进行处理

可以以流水线上的处理流程来想象Processor,流水线上的产品就是url,由于处理的processor主要着重于不同的阶段和功能,所以,heritrix将其processor分成了五个大类。

1 Pre-fetch

这里面包含一些需要在像web服务器发出请求之前的一些处理的processor,比如检查url的scope

2 Fetch

这里面的是获取web信息的processor,不同的processor支持不同的协议,比如FetchHTTP支持http,FetchDNS支持dns

3 Extractor

这个里面就是涉及到对抓取的web信息进行内容的提取了,可以对其中的链接进行处理,放到以后进行抓取,也可以根据自己的业务逻辑进行相应的扩展

4 Write/index

将抓取的信息存储到硬盘中

5. Post-processing

将Extractor中找到的url放入到Frontier中待以后进行抓取,进行processor的清理工作

所有的处理类都是继承了Processor,这样就能以一定的抽象统一对所有的processor进行管理,而每个具体的processor只需要根据自己的需要重写相应的处理方法即可

CrawlController在setupCrawlModules中会初始化processorChains,ProcessorChainList这个实例就是整个处理器的一个容器,它下面根据上面所说的分类构成了5个ProcessorChain,需要注意的是初始化的时候顺序是很重要的,因为这个顺序关系到url处理时候的顺序。ProcessorChain中包含了所需要的processor

多线程相关

Processor的实例在CrawlController中会存放在ProcessorChain中,如果有特殊需要为了保证每个线程有属于自己的Processor,只需要实现InstancePerThread这个端口即可

00private Processor getProcessor(Processor processor) {
01if(!(processor instanceof InstancePerThread)) {
02// just use the shared Processor
03return processor;
04}
05// must use local copy of processor
06Processor localProcessor = (Processor) localProcessors.get(
07processor.getClass().getName());
08if (localProcessor == null) {
09localProcessor = processor.spawn(this.getSerialNumber());
10localProcessors.put(processor.getClass().getName(),localProcessor);
11}
12return localProcessor;
13}

这个方法对于需要新建的Processor通过反射重新建立实例并存放在ToeThread的localProcessors中

当时在看一个扩展Processor的时候觉得很奇怪的就是本来下意识的觉得多个线程公用一个东西应该使用同步,所以看到Processor并没有使用同步的关键字觉得很奇怪,后来仔细想了一下觉得这个地方其实是有它的道理的。因为同步是为了什么?为了共享资源访问的时候不出问题,而这里处理url的过程中Processor的处理本来就没什么共享的东西需要进行同步,所以这样设计是没有问题的。这也告诉我们,对于多线程调用的一些方法,同步关键字并不是必须的,同步的本质是对于共享资源访问时的同步

基于遗传算法的新的异构分布式系统任务调度算法研究(Matlab代码实现)内容概要:本文档围绕基于遗传算法的异构分布式系统任务调度算法展开研究,重点介绍了一种结合遗传算法的新颖优化方法,并通过Matlab代码实现验证其在复杂调度问题中的有效性。文中还涵盖了多种智能优化算法在生产调度、经济调度、车间调度、无人机路径规划、微电网优化等领域的应用案例,展示了从理论建模到仿真实现的完整流程。此外,文档系统梳理了智能优化、机器学习、路径规划、电力系统管理等多个科研方向的技术体系与实际应用场景,强调“借力”工具与创新思维在科研中的重要性。; 适合人群:具备一定Matlab编程基础,从事智能优化、自动化、电力系统、控制工程等相关领域研究的研究生及科研人员,尤其适合正在开展调度优化、路径规划或算法改进类课题的研究者; 使用场景及目标:①学习遗传算法及其他智能优化算法(如粒子群、蜣螂优化、NSGA等)在任务调度中的设计与实现;②掌握Matlab/Simulink在科研仿真中的综合应用;③获取多领域(如微电网、无人机、车间调度)的算法复现与创新思路; 阅读建议:建议按目录顺序系统浏览,重点关注算法原理与代码实现的对应关系,结合提供的网盘资源下载完整代码进行调试与复现,同时注重从已有案例中提炼可迁移的科研方法与创新路径。
【微电网】【创新点】基于非支配排序的蜣螂优化算法NSDBO求解微电网多目标优化调度研究(Matlab代码实现)内容概要:本文提出了一种基于非支配排序的蜣螂优化算法(NSDBO),用于求解微电网多目标优化调度问题。该方法结合非支配排序机制,提升了传统蜣螂优化算法在处理多目标问题时的收敛性和分布性,有效解决了微电网调度中经济成本、碳排放、能源利用率等多个相互冲突目标的优化难题。研究构建了包含风、光、储能等多种分布式能源的微电网模型,并通过Matlab代码实现算法仿真,验证了NSDBO在寻找帕累托最优解集方面的优越性能,相较于其他多目标优化算法表现出更强的搜索能力和稳定性。; 适合人群:具备一定电力系统或优化算法基础,从事新能源、微电网、智能优化等相关领域研究的研究生、科研人员及工程技术人员。; 使用场景及目标:①应用于微电网能量管理系统的多目标优化调度设计;②作为新型智能优化算法的研究与改进基础,用于解决复杂的多目标工程优化问题;③帮助理解非支配排序机制在进化算法中的集成方法及其在实际系统中的仿真实现。; 阅读建议:建议读者结合Matlab代码深入理解算法实现细节,重点关注非支配排序、拥挤度计算和蜣螂行为模拟的结合方式,并可通过替换目标函数或系统参数进行扩展实验,以掌握算法的适应性与调参技巧。
本项目是一个以经典51系列单片机——STC89C52为核心,设计实现的一款高性价比数字频率计。它集成了信号输入处理、频率测量及直观显示的功能,专为电子爱好者、学生及工程师设计,旨在提供一种简单高效的频率测量解决方案。 系统组成 核心控制器:STC89C52单片机,负责整体的运算和控制。 信号输入:兼容多种波形(如正弦波、三角波、方波)的输入接口。 整形电路:采用74HC14施密特触发器,确保输入信号的稳定性和精确性。 分频电路:利用74HC390双十进制计数器/分频器,帮助进行频率的准确测量。 显示模块:LCD1602液晶显示屏,清晰展示当前测量的频率值(单位:Hz)。 电源:支持标准电源输入,保证系统的稳定运行。 功能特点 宽频率测量范围:1Hz至12MHz,覆盖了从低频到高频的广泛需求。 高灵敏度:能够识别并测量幅度小至1Vpp的信号,适合各类微弱信号的频率测试。 直观显示:通过LCD1602液晶屏实时显示频率值,最多显示8位数字,便于读取。 扩展性设计:基础版本提供了丰富的可能性,用户可根据需要添加更多功能,如数据记录、报警提示等。 资源包含 原理图:详细的电路连接示意图,帮助快速理解系统架构。 PCB设计文件:用于制作电路板。 单片机程序源码:用C语言编写,适用于Keil等开发环境。 使用说明:指导如何搭建系统,以及基本的操作方法。 设计报告:分析设计思路,性能评估和技术细节。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值