nutch 0.7 plug-ins 详解

nutch 0.7 plug-ins 详解

最近桂林在关注nutch的进展状况,这里有几个重要的消息要和大家分享:
1、
nutch 0.7 发布了;
2、nutch 的java源代码包路径改变成了org.apache...
3、yahoo也使用了nutch,并做了很多的工作。1 2

clustering-carrot2 :
一个搜索结果类聚的代码框架,目前和Egothor等搜 索引擎结合的很好;
地址:http://sourceforge.net/projects/carrot2
相关类:org.apache.nutch.clustering.OnlineClusterer
Nutch Online Search Results Clustering Plugin
org.apache.nutch.clustering.carrot2
Carrot2 Clusterer
creativecommons :
一个创作共用的工具集合。地址:http://creativecommons.org/ ;
相关类:
org.apache.nutch.parse.HtmlParseFilter
HTML Parse Filter
org.apache.nutch.indexer.IndexingFilter
Nutch Indexing Filter
org.apache.nutch.searcher.QueryFilter
Nutch Query Filter
index-basic :
相关类:
org.apache.nutch.indexer.IndexingFilter
Nutch Indexing Filter
index-more :
language-identifier : 语言检测工具;
相关类:
org.apache.nutch.analysis.lang.LanguageParser
Nutch language Parser
org.apache.nutch.analysis.lang
Nutch language identifier filter
org.apache.nutch.analysis.lang.LanguageQueryFilter
Nutch Language Query Filter

ontology : 一个概念话的规范,主要是针对人工智能的;
相关类:
org.apache.nutch.ontology.Ontology
Ontology Model Loader
parse-ext :
parse-html :
parse-js : 解析js文档
parse-msword : 解析msword文档
parse-pdf : 解析pdf文档
相关类:
org.apache.nutch.parse.pdf.PdfParser
parse-rss : 解析Rss格式文档
parse-text : 解析text文档
protocol-file :
protocol-ftp :
protocol-http :
protocol-httpclient :
query-basic :
query-more :
query-site :
query-url :
urlfilter-prefix :
urlfilter-regex :
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值