
nutch
豹先生_MR-BAO
做中国云计算导航人~~~~~
展开
-
Java正则表达式详解
如果你曾经用过Perl或任何其他内建正则表达式支持的语言,你一定知道用正则表达式处理文本和匹配模式是多么简单。如果你不熟悉这个术语,那么“正则表达式”(Regular Expression)就是一个字符构成的串,它定义了一个用来搜索匹配字符串的模式。 许多语言,包括Perl、PHP、Python、JavaScript和JScript,都支持用正则表达式处理文本,一些文转载 2011-11-15 19:01:15 · 694 阅读 · 0 评论 -
Nutch 1.3 源码分析 ParseSegment
1. bin/nutch parse 这个命令主要是用来解析抓取的内容,对其进行外链接分析,计算分数等操作,这个解析在抓取的时候就可以设置是否进行,如果在抓取的时候没有设置解析抓取的网页内容,那这边可以单独用一个Map-Reduce任务来做。 后面的参数为:Usage: ParseSegment segment 这里是一个segment的目录名 2. ParseSegment源转载 2011-12-01 18:30:07 · 1437 阅读 · 0 评论 -
Nutch 1.3 源码分析 5 Fetcher流程
1. Fetcher模块的简单介绍 Fetcher这个模块在Nutch中有单独一个包在实现,在org.apache.nutch.fetcher,其中有Fetcher.java, FetcherOutput 和FetcherOutputFormat来组成,看上去很简单,但其中使用到了多线程,多线程的生产者与消费者模型,MapReduce的多路径输出等方法。 下面我们来看一下Fetcher的注转载 2011-12-01 18:21:35 · 1346 阅读 · 0 评论 -
Nutch 1.3 源码分析 7 CrawlDb - updatedb
这里主要看一下CrawlDb中的updatedb,它主要是用来更新CrawlDb数据库的 1. bin/nutch updatedb 我们用nutch的命令行时会看到一个方法叫updatedb,其实这个方法就是调用CrawlDb.java类中的update方法,它的参数帮助如下: view plain Usage: CrawlDb crawldb转载 2011-12-01 18:36:37 · 1294 阅读 · 0 评论 -
Nutch 1.3 源码分析 4 Generate 类
1. Generate的作用 在Inject之后就是Generate,这个方法主要是从CrawlDb中产生一个Fetch可以抓取的url集合(fetchlist),再结合一定的过滤条件,它的命令行如下: view plain bin/nutch generate Usage: Generator crawldb> segments_di转载 2011-12-01 17:57:32 · 1566 阅读 · 2 评论 -
Nutch 1.3 源码分析 8 LinkDb
1. 运行命令 bin/nutch invertlinks 帮助参数说明: view plain Usage: LinkDb linkdb> (-dir segmentsDir> | seg1> seg2> ...) [-force] [-noNormalize] [-noFilter] linkdb output LinkDb to crea转载 2011-12-01 18:39:37 · 1124 阅读 · 0 评论 -
nutch 插件 实例2
view plain package com.sg123.nutch.plugin.parse.html; import java.util.Enumeration; import java.util.Properties; import org.apache.hadoop.conf.Configuration; import org.ap转载 2011-11-30 18:18:18 · 938 阅读 · 0 评论 -
Nutch插件开发
首先说明的是这个文章只是我实现一个Nutch插件的过程,至于Nutch插件机制的介绍就不在此说明,网上有很多关于Nutch插件机制的文章,可以自己查找。 实现Nutch插件,可以参考Nutch中自带的插件的配置方法,我这里实现的插件是index-field,是主要功能是在索引中加入几个字段,以满足我们业务的需求。下面介绍实现过程: 1. 插件src的目录结构 插件的源码文件一般放在src/p转载 2011-11-30 18:10:19 · 1356 阅读 · 0 评论 -
Nutch 1.3 学习笔记2
1. Nutch 1.3 运行命令的一些介绍 要看Nutch的命令说明,可执行如下命令bin/nutch view plain Usage: nutch [-core] COMMAND where COMMAND is one of: crawl one-step crawler for intr转载 2011-11-07 22:16:19 · 751 阅读 · 0 评论 -
nutch 1.3 学习笔记3 - Inject
Nutch 1.3 学习笔记 - Inject ---------------------------- 1. Inject是干嘛的? 在Nutch中Inject是用来把文本格式的url列表注入到抓取数据库中,一般是用来引导系统的初始化。 这里的文本格式如下: view plain http://www.nutch.org/ \t nutch.score转载 2011-11-07 22:41:53 · 927 阅读 · 0 评论 -
nutch的核心流程分析
Crawl类的时序图。 流程如下: 1. 建立初始URL 集 2. 将URL 集注入crawldb 数据库---inject 3. 根据crawldb 数据库创建抓取列表---generate 4. 执行抓取,获取网页信息---fetch 5. 更新数据库,把获取到的页面信息存入数据库中---updatedb 6. 重复进行3 ~5 的步骤,直到预先设定的转载 2011-12-02 16:16:08 · 798 阅读 · 0 评论