WebHarvest(1)

本文介绍了使用WebHarvest处理复杂配置文件的方法。该工具利用SAXParser解析多种类型的配置文件,并通过实现DefaultHandler处理XML元素,避免了大量条件判断。文章还提到了类似框架在短信平台中的应用案例。
最近准备写个爬虫程序,今天看了下,貌似有个WebHarvest是开源的,下载了看看,稍微看了下他的代码,感觉他对配置文件的处理挺好的。
在正常情况下,处理配置文件,我们可以用dom4j或者jdom啥的来解决,但是因为WebHarvest中的配置文件会有N种不同的类型,如果按照以前的那种解析方式,就会产生N多的判断条件。
在WebHarvest中,他通过jdk自带的javax.xml.parsers.SAXParser来解析,
SAXParser parser = parserFactory.newSAXParser();
parser.parse(in, handler);
这里的handler就是实现了org.xml.sax.helpers.DefaultHandler,这样将所有的element的信息放入到XMLNode中,再根据这些元素的name来产生他们的definition,当需要处理每个element的时候,process根据definition来产生.
其实这种框架的搭建方式在socket的处理上会经常用到,比如我们以前公司的短信平台,运营商发过来个消息,将消息进行封装,再根据消息的commandID,来产生这个消息definition,最后根据这个definition来决定丢给谁去处理。
明天有时间的话,再看看他对XQuery和每个process是如何处理的。最近太无聊了~~~~~~~~~~~~~~~~~~~~~~~~~~
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值