Heritrix源码分析(五) 如何让Heritrix在Ecplise等IDE下编程启动

Heritrix非Web启动

最新推荐文章于 2025-12-05 17:02:52 发布

最新推荐文章于 2025-12-05 17:02:52 发布 · 90 阅读

文章标签：

#java

本文介绍了Heritrix爬虫系统的非Web容器启动方法，并提供了一个示例代码，该方法适用于调试和研究Heritrix代码。

在Heritrix注释里说Heritrix有三种启动方式,但我感觉只有两种：一种是通过tomcat或者JBOSS或者Jetty等Web容器，还有一种自然就是不通过Web直接编程运行。由于第二种方式更适合调试、研究代码，所以这里就介绍下它的编程启动方式吧....这里贴上示例代码以及注释：

    Java代码
    
  
 importjava.io.File; 
 importjavax.management.InvalidAttributeValueException; 
 importorg.archive.crawler.event.CrawlStatusListener; 
 importorg.archive.crawler.framework.CrawlController; 
 importorg.archive.crawler.framework.exceptions.InitializationException; 
 importorg.archive.crawler.settings.XMLSettingsHandler; 
  
 publicclassStartHeritrixByEclipse{ 
  
 publicstaticvoidmain(String[]args)throwsInterruptedException{ 
 StringorderFile="D:/heritrix-jobs/startHeritrixByEclipse/order.xml";//order.xml文件路径 
 Filefile=null;//order.xml文件 
  
 CrawlStatusListenerlistener=null;//监听器 
 XMLSettingsHandlerhandler=null;//读取order.xml文件的处理器 
 CrawlControllercontroller=null;//Heritrix的控制器 
 try{ 
 file=newFile(orderFile); 
 handler=newXMLSettingsHandler(file); 
 handler.initialize();//读取order.xml中的各个配置 
  
 controller=newCrawlController();// 
 controller.initialize(handler);//从读取的order.xml中的各个配置来初始化控制器 
  
 if(listener!=null){ 
 controller.addCrawlStatusListener(listener);//控制器添加监听器 
 } 
 controller.requestCrawlStart();//开始抓取 
  
 /* 
 *如果Heritrix还一直在运行则等待 
 */ 
 while(true){ 
 if(controller.isRunning()==false){ 
 break; 
 } 
 Thread.sleep(1000); 
 } 
  
 //如果Heritrix不再运行则停止 
 controller.requestCrawlStop(); 
  
 }catch(InvalidAttributeValueExceptione){ 
 //TODOAuto-generatedcatchblock 
 e.printStackTrace(); 
 }catch(InitializationExceptione){ 
 //TODOAuto-generatedcatchblock 
 e.printStackTrace(); 
 }catch(InterruptedExceptione){ 
 //TODOAuto-generatedcatchblock 
 e.printStackTrace(); 
 } 
  
 } 
  
 }