
nutch
xyz2011
大数据从业者,赶上了时代的红利,希望自己的一些经验对大家有一些帮助
展开
-
第一次使用nutch
Nutch 是一个基于Lucene开发的诞生不久的开放源代码(open-source)的web搜索引擎. 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户. Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, ...2009-11-19 23:13:40 · 96 阅读 · 0 评论 -
nutch的plugin分析
plugin(插件)为nutch提供了一些功能强大的部件,举个例子,HtmlParser就是使用比较普遍的用来分析nutch抓取的html文件的插件。 为什么nutch要使用这样的plugin系统? 有三个原因:1:可扩展性 通过plugin,nutch允许任何人扩展它的功能,而我们要做的只是对给定的接口做简单的实现,举个例子:MSWordPar...原创 2009-08-04 23:35:02 · 141 阅读 · 0 评论 -
Nutch1.0的配置与运行
配置软件:1、 Java jdk-1.61.1 下载安装from: http://www.sun.com安装目录:C:\Java\jdk1.6.0_031.2 修改环境变量JAVA_HOME=C:\Java\jdk1.6.0_03\bin CLASSPATH=C:\Java\jdk1.6.0_03\lib\dt.jar;C:\Java\jdk1.6.0_03\lib\tools.jar1.3 测试...原创 2009-08-05 23:38:39 · 163 阅读 · 0 评论 -
在Eclipse中运行Nutch1.0
Run Nutch In Eclipse on Linux and Windows nutch version 1.0Tested with· Nutch release 1.0 · Eclipse 3.3 · Java 1.6 · Ubuntu (should work on most platforms...原创 2009-08-05 23:42:04 · 133 阅读 · 0 评论 -
Nutch的资料
http://issues.apache.org/jira/browse/NUTCH-36http://www.mail-archive.com/nutch-developers@lists.sourceforge.net/msg03907.html以上两个链接的内容出处相同,都是Apache Nutch dev mail archive。由Jack Tang于04-Apr-2005提出,是描...原创 2009-08-19 17:35:44 · 118 阅读 · 0 评论 -
在nuthc中加入中文分词
nutch实用的分词是默认的,对中文支持的不是很好。网上有很多对中文分词的介绍,这里就不再细讲了,主要说下:如何在nutch中加入中文的分词,两种办法:1、插件形式。灵活2、改动nutch源码,【偷懒】详细的可以打开附件看看。...2011-05-15 11:41:56 · 142 阅读 · 0 评论 -
Nutch fetch job中时间的分配比例
下面是nutch fetch job中map shuffle reduce的时间花费的一个列表:server nameFri Mar 05 09:45:13 GMT 2010job_201003050945_0006fetch crawl/segments/20100305102846user nameUser : username --用户名Jo...原创 2011-02-16 13:38:11 · 187 阅读 · 0 评论 -
readdb导致fetch job中断的问题
Nutch readdb命令可以用来统计目前crawldb库里面URL的情况root@namenode:/# bin/crawler readdb /user/root/crawl/crawldb -statsCrawlDb statistics start: /user/root/crawl/crawldbStatistics for CrawlDb: /user/root/craw...原创 2011-02-16 13:39:57 · 207 阅读 · 0 评论 -
使用ant编译时错误:Specify at least one source--a file or resource
将命令环境切换到Nutch目录下,执行ant命令。出现如下错误:Java代码Buildfile: build.xml init: BUILD FAILED /home/xp/nutch-1.2/build.xml:62: Specify at least one source--a file or resource collection. Tota...2011-02-22 11:12:21 · 939 阅读 · 0 评论 -
nutch1.2中加入中文分词以及搜索错误解决
在nutch当中加入中文分词。这里我使用的IK_Analyzer1、下载IKAnalyzer3.2.5Stable.jar。2、需要修改org.apache.nutch.analysis包下面的NutchDocumentAnalyzer.java的tokenStream方法 2.1 : 加入属性变量 -- private static Analyzer IK_ANALYZER; ...2011-03-02 12:15:01 · 194 阅读 · 0 评论 -
nutch-1.x分布式索引指定
1、nutch-1.x中在crawl.java中。最后有这么一句话。 indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats)));它会把crawldb,linkdb以及segments,进行建立索引。生成文件 indexes,里面包含了part-00000,.....根据自己的d...2011-07-04 17:15:40 · 154 阅读 · 0 评论 -
nutch UI 多台机子部署有关jetty配置servlet的问题
我们jetty是一个小型的web服务器,可以嵌入到程序当中去,著名有hadoop,nutch,hertriex.等。在部署nutch的UI的时候程序一直报 “ClassNotFundException”.检查了好久,发现是webapps/task/web.xml。这里面我配置了几个servlet。 2、nutch的分布式部署的时候。在namenode机子上所拷贝的webapps(里...原创 2010-01-18 17:35:05 · 100 阅读 · 0 评论 -
nutch中plugin.folders的配置
今天在公司做nutch的调试时,犯了一个低级的错误,在这里记录下,提醒下大家,以后不要犯此类的错误。我们知道nutch-default.xml中有一个: <property> <name>plugin.folders</name> <value>plugins</value> <description&...2009-12-21 18:07:18 · 190 阅读 · 0 评论 -
把另外的一个项目加入了nutch中来
周末在家闲的慌,把在公司搞的nutch拿回来在家里试着做了下,刚开始总以为把一个项目都以plugin的形式加入到nutch中来,是不是有点.......嗨,搞呗。周日竟然成功了,分享下新得先。先贴出来先日志的东东吧,我们要求的是nutch边从网站上爬取,所加入的项目(plugin)得边去解析(抽取)数据。就这么简单,插件的介绍在上几次已经介绍过了,看下日志:product_name = T...2009-12-20 23:59:15 · 94 阅读 · 0 评论 -
cygwin配置说明
开始,一步一步来:了解Cygwin的人都知道,就是到 : http://www.cygwin.com 中先下载一个安装向导文件setup.exe,这个是Cygwin的官方下载安装向导文件,而且也只能通过它才能正确下载最新的Cygwin版本。setup.exe下载完毕,双击运行,程序安装向导界面:上图,点击“下一步” 继续,准备选择Cygwin的安装方式。上图所示,一共有三种...原创 2009-11-21 00:15:49 · 120 阅读 · 0 评论 -
nutch的基本工作流程理解
(一):Nutch的工作流程:Crawdb、linkdb是web link目录,存放url及url的互联关系,作为爬行与重新爬行的依据。segments是主目录,存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。nutch以广度优先的原则来爬行,因此每爬完一轮会生成一个segment目录。index是lucen...2009-11-21 00:17:20 · 162 阅读 · 0 评论 -
在eclipse中如何配置nutch1.0
<1>: 首先从http://apache.etoak.com/lucene/nutch/ 下载最新的nutch.在这里我使用的是nutch1.0.<2>: 在eclipse中新建立一个Java Project. 名字自己定义(Nutch). 选择"Create project from existing source",指向自己nutch-1.0的目录.<...2009-11-25 11:44:38 · 162 阅读 · 0 评论 -
配置完成nutch容易出现的错误
1.1.2 运行crawl报错Job failedException in thread "main" java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604) at org.apache.nutch.indexer....2009-11-25 11:50:46 · 162 阅读 · 0 评论 -
nutch如何才能抓取到动态的url
http://www.tianya.cn/new/TianyaCity/content.asp?idItem=296&idArticle=53561&idWriter=0&key=0在运行的时候不会抓取到,分析了一下原因:主要在conf/crawl-urlfilter.txt. 分析:使用nutch默认的配置过滤文件的话,是不抓取到包含?*!@=等字符的URL...2009-11-25 15:27:23 · 156 阅读 · 0 评论 -
Nutch1.0 Ui启动在tomcat中的配置
<!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } A:link { so-language: zxx } -->1、下载nutch-1.0.tar.gz. http://apache.etoak.com/lucene/nutch/...2009-12-07 14:09:41 · 154 阅读 · 0 评论 -
如何读取nutch抓取数据
如何读取nutch抓取数据1.首先nutch的配置已经在博客里面写好了,如果还不知道,建议现看下,然后再读这篇文章。2.用一个SequenceFile.Reader来读取排序的输入。SequenceFile.Reader m_reader = m_reader = new SequenceFile.Reader(fs, content, conf);3.用NutchConfigurat...2009-12-16 17:43:00 · 174 阅读 · 0 评论 -
nutch plugin的流程以及如何自定义plugin
PluginRepository 是plugin的入口,保存了所有的Plugins,加载流程如下:1. 解析plugin.folder下面的所有plugin的plugin.xml文件:几个主要的解析函数如下: (1) parseExtension(rootElement, pluginDescriptor);解析extension element: <exten...2009-12-16 18:04:48 · 170 阅读 · 0 评论 -
nutch plugin详细分析
当某个插件需要被加载时, Nutch 会加载所有插件的相关接口到缓存,此后每个插件需要实例的时候,根据相关接口和相关接口实现实例在缓存内的记录,使用反射实现一个实例并返回,下面以 QueryFilter 的所有插件被加载例子进行说明。 具体代码参看org.apache.nutch.seacher.QueryFilters<init>( 1 )当第一次需要得到 QueryFi...2009-12-16 18:06:27 · 161 阅读 · 0 评论 -
今天来用一个例子来详细讲解下nutch当中到底是如何自定义插件的
接上面一篇,今天来用一个例子来详细讲解下nutch当中到底是如何自定义插件的。1.首先在src/plugin/,新建一个文件夹,这个文件夹我们姑且就叫(urlfilter-urllength),从名字就可以看出我们这个自定义的插件的作用是什么了。 1.我们这个类实现了URLFilter.当然要实现其没有实现的方法了。public class UrlLengthFilter ...2009-12-17 10:29:32 · 210 阅读 · 0 评论 -
nutch-1.2结合hadoop分布式搜索
nutch-1.2结合hadoop分布式搜索。1、网上关于nutch分布式搜索的配置有些BLOG写的很详细了。有那些地方有疑问的,我这里也给一个连接<<nutch分布式搜索配置>>2、在这里主要想写下工作过程当中遇到的一些问题:------0-------------1-------------2-------------3-------java...2011-07-13 10:50:18 · 195 阅读 · 0 评论