
nutch-1.12源码分析
二侠
这个作者很懒,什么都没留下…
展开
-
nutch源码分析---1
nutch源码分析—inject本章开始分析nutch 1.12版本的源码,nutch在爬取网页时分为inject、generate、fetch、parse、updatedb五个步骤,本章先来看inject命令,nutch官网教程给出的实例如下, bin/nutch inject crawl/crawldb urls urls目录中的文件seed.txt包含了其实的url地址。 编译nutch原创 2016-08-17 12:06:45 · 2023 阅读 · 0 评论 -
nutch源码分析---2
nutch源码分析—generate根据上一章的分析,“bin/nutch generate crawl/crawldb crawl/segments”这条命令最终会调用org.apache.nutch.crawl.Generator的main函数。Generator::main public static void main(String args[]) throws Except原创 2016-08-18 22:45:59 · 766 阅读 · 0 评论 -
nutch源码分析---7
nutch源码分析—solrindex“bin/nutch solrindex http://localhost:8983/solr crawl/crawldb/ -linkdb crawl/linkdb/ -dir crawl/segments/ -filter -normalize”elif [ "$COMMAND" = "solrindex" ] ; then CLASS="or原创 2016-08-30 08:20:48 · 1074 阅读 · 0 评论 -
nutch源码分析---3
nutch源码分析—fetch原创 2016-08-22 09:23:17 · 751 阅读 · 0 评论 -
nutch源码分析---4
nutch源码分析—parsebin/nutch parse crawl/segments/*原创 2016-08-24 18:57:28 · 1993 阅读 · 0 评论 -
nutch源码分析---5
nutch源码分析—updatedborg.apache.nutch.crawl.CrawlDb public static void main(String[] args) throws Exception { int res = ToolRunner.run(NutchConfiguration.create(), new CrawlDb(), args); Syst原创 2016-08-25 11:39:37 · 646 阅读 · 0 评论 -
nutch源码分析---6
nutch源码分析—invertlinksbin/nutch invertlinks crawl/linkdb -dir crawl/segments原创 2016-08-27 08:09:22 · 788 阅读 · 0 评论