
开源搜索引擎(nutch)
文章平均质量分 61
Kaiwii
单调,简单
展开
-
regex强大工具:org.apache.oro.text.regex下的Util源码解读之substitute()方法1
//针对单个pattern和单个替换文本的替换方法 public static int substitute(StringBuffer result, PatternMatcher matcher, Pattern pattern,原创 2011-09-01 15:51:21 · 1838 阅读 · 0 评论 -
nutch插件机制(1)
原创 2011-08-25 15:14:55 · 692 阅读 · 0 评论 -
nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling
csdn的图片功能太差了。直接给一个连接吧:http://hi.baidu.com/kaiwii/blog/item/7710933c82422b1abba167f5.html翻译 2011-08-20 06:47:12 · 893 阅读 · 0 评论 -
crawl结果文件夹中的index,indexes文件夹的区别
1、nutch-1.x中在crawl.java中。最后有这么一句话。?indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats)));它会把crawld转载 2011-08-19 15:12:09 · 807 阅读 · 0 评论 -
FutureTask.cancel(true)与interrupt()的效果一样
如题。解释见我的另外一个问题博客(stackoverflow)http://stackoverflow.com/questions/7412491/whether-method-cancel-and-method-interrupt-do-the-duplicate-jo原创 2011-09-15 08:01:42 · 4134 阅读 · 1 评论 -
nutch -1.2 command
nutch.job 文件的使用:hadoop jar nutch-1.2.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 1 抓取 bin/nutch crawl urls -dir -depth转载 2011-08-17 07:27:18 · 1242 阅读 · 0 评论 -
如何查看Nutch命令
比如要找readdb的使用方法可以用文本方式打开bin/nutch.sh然后,找到相应的这么一句:elif [ "$COMMAND" = "readdb" ] ; then CLASS=org.apache.nutch.crawl.CrawlDbReader原创 2011-08-16 14:46:51 · 843 阅读 · 0 评论 -
nutch-1.3 分布式terminal操作过程
kaiwii@master:~/nutch-1.2/bin$ ./hadoop namenode -format11/08/13 19:52:20 INFO namenode.NameNode: STARTUP_MSG: /************************原创 2011-08-14 11:13:01 · 1327 阅读 · 0 评论 -
nutch配置问题
使用的是nutch 1.3的版本基本配置和安装,根据官网tutorial的内容即可了。http://wiki.apache.org/nutch/NutchTutorial要点说明:需要配置nutch-site.xml。具体属性项可以参考nutch-default.xm原创 2011-08-11 11:12:31 · 1819 阅读 · 1 评论 -
nutch下的CrawlDatum作用
CrawlDatum:The crawl state of a url记录成功通过substitution和filter的url的所有信息(状态)原创 2011-09-03 11:15:35 · 1716 阅读 · 0 评论 -
regex强大工具:org.apache.oro.text.regex中的PatternMatcher使用之contains()与matchs()的区别
区别:一、contains()识别的内容可以输入内容的部分;但是matchs()必须要整个输入内容都符合pattern才算通过。举个例子:输入内容为:3231 432432 432424regex pattern:\\b\\d+\\b使用matchs():压根原创 2011-09-02 12:03:22 · 3316 阅读 · 0 评论 -
regex强大工具:org.apache.oro.text.regex中的PatternMatcherInput使用
初见这个工具包的时候,就有一种疑惑,用String作为输入好好的,为什么要另外搞一个PatternMatcherInput呢?现在,我大概说一下自己的看法吧。PatternMatcherInput与普通String的最大区别是:PatternMatcherInput是有状态的原创 2011-09-02 11:38:29 · 7828 阅读 · 0 评论 -
源码:injectedScore()初读
Inject类下的InjectMapper中有一句:try { scfilters.injectedScore(value, datum); } catch (ScoringFilterException e) { i原创 2011-09-04 10:53:10 · 1512 阅读 · 0 评论 -
regex强大工具:org.apache.oro.text.regex中的MatchResult
MatchResult可以这样理解就是匹配了regex pattern的String和一些状态项的结合体。但是有两点需要注意的:1、经常使用到的:result = matcher.getMatch(); 返回的MatchResult是这次使用contains时所原创 2011-09-02 15:50:49 · 2414 阅读 · 0 评论 -
替换(substitution)之捕获分组
这是我写的第一篇关于正则表达式的文章。至于正则表达式,在本科时代学习《编译原理》的时候,略微看过了一下,并没有深究。最近学习nutch的框架,当看到conf/regex-normalize.xml,完全傻眼了。为了进一步学习,不得不重新开始regex(正则表达式)。 一切原创 2011-08-29 16:54:47 · 1831 阅读 · 0 评论