
nutch
nizaina_0
这个作者很懒,什么都没留下…
展开
-
nutch增量爬取脚本(recrawl shell)
参考:http://wiki.apache.org/nutch/Crawl介绍(Introduction)注意:脚本中没有直接使用Nutch的爬去命令(bin/nutch crawl或者是“Crawl”类),所以url过滤的实现并不依赖“conf/crawl-urlfilter.txt”,而是应该在“regex-urlfilter.txt”中设定实现。爬去步骤(Steps)翻译 2012-09-28 10:21:25 · 1234 阅读 · 0 评论 -
nutch1.4 URLFilter详解
org.apache.nutch.net.URLFilter接口有如下实现类: Java代码 1、//匹配suffix, domain, host org.apache.nutch.urlfilter.domain.DomainURLFilter 2、//程序代码结构实现同相同,不知道为什么一模一样,没仔细琢磨。转载 2012-11-02 18:04:54 · 485 阅读 · 0 评论 -
nutch1.4插件开发
参考了不少nutch插件开发的文章都不完整,经过多次调试研究才成功,下面将注意要点列出希望能对nutch应用开发爱好者提供帮助。 nutch开发环境搭建请参考 http://peigang.iteye.com/blog/1464854。本文提到的各项内容都是依据以上环境测试的。 一、插件程序结构以nutch中的parse-html解析html的插件为例介绍。转载 2012-11-02 17:33:09 · 723 阅读 · 1 评论 -
Understanding the columns/fields in Nutch 2.0 Webpage
Understanding the columns/fields in Nutch 2.0 WebpageOne of the great things about Nutch 2.0 and the move to GORA is that the datastore is much more easily accessible than it was under Nutch翻译 2012-10-24 14:30:27 · 223 阅读 · 0 评论 -
Nutch配置文件(ConfigurationFiles的优先级、覆盖问题)
Configuration has two levels, default and final. It is supplied by the org.apache.hadoop.conf.Configuration class and extended in Nutch by the org.apache.nutch.util.NutchConfiguration class.Although原创 2012-10-24 10:06:21 · 471 阅读 · 0 评论 -
Developing Nutch: Gotchas
The following acts as a comprehensive list of Nutch "Gotchas" which should act as a suitable prerequisite source of implicit information currently existing in the Nutch Codebase and in its general u转载 2012-10-24 09:58:04 · 376 阅读 · 0 评论 -
nutch 乱码问题
搜索引擎迈进三 nutch 乱码解决一:http://blog.youkuaiyun.com/bingdongguke/article/details/6670913 2011-08-08 22:50 39人阅读 评论(0) 收藏 举报 nutch测试报告:http://adt.5d6d.com/thread-358-1-1.htmlnutch页面专题:http://adt.5d6d.co转载 2012-09-26 11:09:54 · 783 阅读 · 0 评论 -
Nutch 二次开发需要修改的东西
nutch 里的页面,是通过xslt 里编写的,在源码src/web/style/nutch-page.xsl 编写,这里有一个xsl格式的源码。这里你应该要读懂它的基本结构,不然会build.xml失败的。指明了一些文件的位置,可以很方便的在此进行修改。参考该文[xhtml] view plaincopy title>转载 2012-09-26 14:26:14 · 486 阅读 · 0 评论 -
Nutch中文支持bug(out of range 修复)
问题描述:由于Nutch不是原生支持中文的,开发者没有考虑到中文的分词会存在token的交叉重叠的情况,导致在根据用户输入查询串的token获取页面summary时出现:StringIndexOutOfBoundsException的异常。比如:“教育方针”可能出现这样的分词“教育方针”、“教育”、“方针”,这几个token就交叉重叠了。(网上有bupo.Jung写的另外一篇文章,我也进行转载 2012-09-25 09:54:27 · 434 阅读 · 0 评论 -
Luke安装与使用
1 Luke简介 Luke是一个方便宜的开发和诊断工具,它能访问Lucene建立好的索引同时也允许以如下的一些方式展示和修改内容:l 按文档(Document)号或者词项浏览l 查看文件/复制到粘贴板l 查询一个高频词项排序列表l 执行查询并查看结果l 分析查询结果转载 2012-09-22 09:29:37 · 765 阅读 · 0 评论 -
nutch特定域(field)的搜索
1. WEB-INF/classes/custom-fields.xml里添加: title yes yes no 1.0 false content yes yes no 1.0 false 2. plugin/query-custom/plugin.xml里修改: name="Nutch Custom Field Query Filt转载 2012-10-02 16:38:12 · 347 阅读 · 0 评论 -
如何向nutch索引中添加自己的Field
向nutch中添加自己的field也是比较简单的,和直接调用lucene向索引中添加field基本相同,首先设定添加的field是否要被存储分词索引,然后将field添加到NutchDocument中,其他的工作就nutch会自动完成:(1)首先要在Indexer的index函数配置执行索引工作前设定添加Field的属性,因为添加的pagetime是用来进行对结果排序使用的,所以它的属性不转载 2012-10-02 16:33:05 · 473 阅读 · 0 评论 -
nutch MergeCrawl脚本(合并多次抓取结果并重建索引)
参考:http://wiki.apache.org/nutch/MergeCrawlThis script allows you to merge 2 Nutch crawls:Merge linkdbMerge crawldbMerge segmentsUpdate segmentsIndex segmentsDe-duplicate indexesMerge indexesSo转载 2012-09-28 11:33:42 · 1307 阅读 · 0 评论 -
Nutch readseg命令详解
Readseg is an alias for org.apache.nutch.segment.SegmentReaderReadseg 命令对应的类是 org.apache.nutch.segment.SegmentReaderThis class is similar to readdb in that it dumps the contents of a segment. Th翻译 2012-10-26 20:05:26 · 488 阅读 · 0 评论