
nutch
obite
这个作者很懒,什么都没留下…
展开
-
nutch1.4 爬虫父页面参数传递到子页面注意事项
1、inject中以读取文件的方式传入自定义参数: datum.getMetaData().put(KEY, VALUE); 将文件中读取的参数加入。2、fetch中 传递参数:1、run方法中由QueueFeeder爬取队列维护爬取列表。2、根据自定义的线程数量启动FetcherThread线程。3、FetcherThread从队列中以原子方式获取爬取地址,爬取...2012-06-02 11:51:04 · 117 阅读 · 0 评论 -
nutch1.4 Injector 详解
org.apache.nutch.crawl.InjectorURL注入器对象,nutch抓取入口。代码如下: /** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distri...原创 2012-03-29 18:04:51 · 145 阅读 · 0 评论 -
nutch1.4 解析器 ParseSegment详解
org.apache.nutch.parse.ParseSegment 解析数据段,快速理解开发使用nutch的重要类。 map函数实现比较简单,读取Content类并解析。reduce也只是简单的将map计算完毕的返回。巧妙之处在job.setOutputFormat(ParseOutputFormat.class);中ParseOutputFormat对象将reduce...原创 2012-04-11 15:17:27 · 116 阅读 · 0 评论 -
nutch1.4插件开发
参考了不少nutch插件开发的文章都不完整,经过多次调试研究才成功,下面将注意要点列出希望能对nutch应用开发爱好者提供帮助。 nutch开发环境搭建请参考 http://peigang.iteye.com/blog/1464854。本文提到的各项内容都是依据以上环境测试的。 一、插件程序结构以nutch中的parse-html解析html的插件为例介绍。parse-html...原创 2012-04-13 17:02:05 · 102 阅读 · 0 评论 -
nutch 正文提取流程解析
nutch正文提取在Fatcher的run方法中进行,本文将相关调用对象结构进行分析说明,各对象结构如下图所示: 未完待续:2013-05-03 17:59:34 · 132 阅读 · 0 评论 -
用Eclipse开发nutch准备工作
本文来源于:http://zettadata.blogspot.com/2011/12/eclipsenutch.html,由于某种不“不可知”的原因无法打开,现在转载贴图。以给其他人提供帮助。 ...原创 2012-09-20 11:34:16 · 103 阅读 · 0 评论 -
nutch分布式调试环境配置
准备:hadoop单机模式设置,参考:http://peigang.iteye.com/admin/blogs/2093070 nutch配置:1、解压nutch文件,此处以apache-nutch-1.4-bin.tar.gz为例。2、将编译好的nutch文件拷贝到nutch/runtime/local 目录下。注意lib下的.jar文件必须与编译环境的同步。同时将apa...原创 2014-07-17 14:35:06 · 127 阅读 · 0 评论 -
nutch本地模式调试环境配置
nutch本地模式调试可以跟踪详细的爬取过程,便于调试。现将环境配置做如下说明: 1、apache官网下载nutch文件,我们以apache-nutch-1.4-bin.tar.gz 为例。将apache-nutch-1.4-bin.tar.gz解压到linux工作目录。 2、执行 chmod +x runtime/local/bin/nutch 修改权限。 3、...原创 2014-07-22 17:33:22 · 170 阅读 · 0 评论 -
nutch-default.xml 配置范例
nutch的配置文件属性很多,需要根据实际需要详细配置。下面是经过验证的生产环境配置文件:<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Licensed to the Apache Software Foundation (AS...原创 2014-07-22 20:20:31 · 215 阅读 · 0 评论 -
nutch1.4 ScoringFilter详解
org.apache.nutch.scoring.ScoringFilter实现类如下: //空方法org.apache.nutch.scoring.link.LinkAnalysisScoringFilter.injectedScore(Text url, CrawlDatum datum)//空方法org.apache.nutch.scoring.opic.OPI...原创 2012-03-29 17:39:32 · 167 阅读 · 0 评论 -
nutch1.4 URLFilter详解
org.apache.nutch.net.URLFilter接口有如下实现类: 1、//匹配suffix, domain, hostorg.apache.nutch.urlfilter.domain.DomainURLFilter2、//程序代码结构实现同相同,不知道为什么一模一样,没仔细琢磨。org.apache.nutch.urlfilter.domain...原创 2012-03-29 17:16:29 · 153 阅读 · 0 评论 -
nutch1.4 URLNormalizers 详解
org.apache.nutch.net.URLNormalizers url过滤封装类,过滤器有3个实现类分别是: //格式化url将url字符小写转换一次,Perl5正则解析URL FILE。org.apache.nutch.net.urlnormalizer.basic.BasicURLNormalizer//空方法,不执行任何解析,直接返回url,注:应该是...原创 2012-03-29 15:56:26 · 157 阅读 · 0 评论 -
nutch1.4 开发:增加外部jar包
ntuch1.4开发中可能会涉及到引入外部jar包的情况,比如数据库访问代码需要hibernate3.jar。这种情况只需要在ntuch/lib中拷贝hibernate3.jar,此时ant编译时就会自动引入hibernate3.jar文件。然后再classpath中引入hibernate3.jar,业务代码开发中也可以正常引用相关文件了。...原创 2012-06-11 14:48:45 · 109 阅读 · 0 评论 -
nutch1.4:爬虫定时抓取设置
nutch1.4定时爬取数据配合linux定时任务可以实现nutch的自动定时爬取,linux定时任务请参考《 Linux定时执行任务命令 :at和crontab》 步骤如下:1、首先查看当前用户的 crontab服务执行命令: crontab -l执行结果:no crontab for ***表示没有定义 crontab 服务 2、编辑crontab服...2012-06-13 15:03:36 · 114 阅读 · 0 评论 -
nutch学习笔记1.crawl
org.apache.nutch.crawl.crawl 类为nutch抓取封装类,引入并整合了如下几部分:Injector injector = new Injector(conf); ///URL注入器对象;数据下载入口 Generator generator = new Generator(conf); ////生成器;生成待下载URL列表 Fetcher fetcher...原创 2012-02-10 13:30:26 · 108 阅读 · 0 评论 -
nutch学习笔记2.Injector 数据下载入口
org.apache.nutch.crawl.Injectorpublic class Injector extends Configured implements Tool 从继承类和实现接口可以看出,Injector封装了Hadoop并在构造函数中初始化Hadoop配置参数Configuration( Configuration 内部机制请参考博文hadoop学习笔记1.Configura...原创 2012-02-10 14:17:14 · 80 阅读 · 0 评论 -
nutch1.4 分布式爬取
从nutch1.3开始本地抓取(单机),分布式抓取(集群)所使用的配置文件和命令单独分开。 NUTCH_HOME/conf 为分布式抓取所用配置文件 NUTCH_HOME/runtime/deply/bin/nutch 分布式抓取命令 NUTCH_HOME/runtime/local/conf 为本地抓取所用配置文件 NUTCH_HOME/runtime/local/bin/nutch 本地抓取命...原创 2012-06-19 12:02:35 · 124 阅读 · 0 评论 -
Eclipse开发nutch环境搭建
本文参考了:http://www.douban.com/note/193721760/ 博文(在此感谢博主),该文中提到的参考文章地址:http://zettadata.blogspot.com/2011/12/eclipsenutch.html或http://peigang.iteye.com/blog/1682107无法打开(原因你懂的)我想办法打开了,参考个文章后将自己的配置过程记录下来,以...原创 2012-03-27 20:13:17 · 162 阅读 · 0 评论 -
MyEclipse配置IvyDE
从以下地址下载eclipse,http://www.eclipse.org/downloads/启动后选择功能Help--Install new Software 选择下载即可,详细步骤参考http://ant.apache.org/ivy/ivyde/download.cgi原创 2012-03-28 14:16:48 · 173 阅读 · 0 评论 -
nutch1.4 crawl详解
/** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information rega...原创 2012-03-29 11:16:48 · 119 阅读 · 0 评论 -
Nutch1.7二次开发培训讲义
做Nutch二次开发,开发阶段用什么操作系统都可以,只要有JDK和Eclipse即可,源代码的管理需要使用一个集中的版本控制系统,可以使用SVN或GIT,建议采用Bitbucket免费的私有库托管。如果想阶段性地在Hadoop集群上面试运行,需要搭建一个Hadoop伪分布式集群或完全分布式集群,开发组可以共用一个集群。 1、下载并解压eclipse(集成开发环境) 使用Stan...原创 2015-09-16 15:23:56 · 152 阅读 · 0 评论