Dissecting The Nutch Crawler -Summary: Nutch crawler extension points

本文介绍了Nutch爬虫的扩展配置方法,包括通过配置文件调整默认设置、使用URLFilter接口进行URL过滤、添加Protocol接口支持新协议以及Parser接口解析不同内容类型。
英文原文出处: DissectingTheNutchCrawler
转载本文请注明出处:http://blog.youkuaiyun.com/pwlazy

Summary: Nutch crawler extension points

The main ways to configure the Nutch crawler are as follows:

  1. Configuration files. Default values are in nutch-default.xml, and you should override them in nutch-site.xml.

  2. URLFilter interface. By default, the class net.nutch.net.RegexURLFilter is used, which reads regular expression patterns from regex-urlfilter.txt. So, you can:

    • Edit that file to tune its behavior

    • Or, write a new class that implements net.nutch.net.URLFilter, and change nutch-site.xml to use it.

  3. Protocol interface. To add support for a new protocol, write or add a plugin to the "plugins" directory. To change protocol behavior, modify the appropriate plugin.

  4. Parser interface. As for Protocol, you should add/create a plugin for any new content-types. Otherwise, you will need to replace the appropriate plugin if you want to modify its behavior.

  5. If you need to make other changes, refer to our discussion of Fetcher and FetchListTool. Consider subclassing these classes, overriding the appropriate method, then calling your class from the "nutch" script using the full class path.


综述:Nutch crawler的扩展点

配置Nutch crawler的主要方式如下:

  1. 配置文件。 nutch-default.xml设置了默认值,你应该在nutch-site.xml覆盖相应默认值
  2. URLFilter接口。默认情况下,系统使用class net.nutch.net.RegexURLFilter,它从regex-urlfilter.txt读取正则表达式,所以你可以:

    • 编辑regex-urlfilter.txt来调整RegexURLFilter得行为
    • 或者写一个新类实现net.nutch.net.URLFilter接口,然后改nutch-site.xml,这样你就可以用了

  3. Protocol接口。添加对新的协议得支持,写个插件改变协议行为或者修个某个适合的插件放入plugins目录,
  4. Parser接口。就解析器来说(译注: 原文此处为协议应该是笔误),你应该增加一个插件用于新的内容类型。否则如果你想修改相关插件行为你需要替换相应插件
  5. 如果你想作其他改变,参考我们关于Fetcher and FetchListTool 的讨论。你可以继承这些类,然后覆盖合适的方法,然后将相应的完全的类路径写入nutch脚本,最后调用它
内容概要:本文档围绕直流微电网系统展开,重点介绍了包含本地松弛母线、光伏系统、锂电池储能和直流负载的Simulink仿真模型。其中,光伏系统采用标准光伏模型结合升压变换器实现最大功率点跟踪,电池系统则基于锂离子电池模型与双有源桥变换器进行充放电控制。文档还涉及在dq坐标系中设计直流母线电压控制器以稳定系统电压,并实现功率协调控制。此外,系统考虑了不确定性因素,具备完整的微电网能量管理和保护机制,适用于研究含可再生能源的直流微电网动态响应与稳定性分析。; 适合人群:电气工程、自动化、新能源等相关专业的研究生、科研人员及从事微电网系统仿真的工程技术人员;具备一定的MATLAB/Simulink使用【直流微电网保护】【本地松弛母线、光伏系统、电池和直流负载】【光伏系统使用标准的光伏模型+升压变换器】【电池使用标准的锂离子电池模型+双有源桥变换器】Simulink仿真实现基础和电力电子知识背景者更佳; 使用场景及目标:①构建含光伏与储能的直流微电网仿真平台;②研究微电网中能量管理策略、电压稳定控制与保护机制;③验证在不确定条件下系统的鲁棒性与动态性能;④为实际微电网项目提供理论支持与仿真依据; 阅读建议:建议结合文中提到的Simulink模型与MATLAB代码进行实操演练,重点关注控制器设计、坐标变换与系统集成部分,同时可参考提供的网盘资源补充学习材料,深入理解建模思路与参数整定方法。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值