Nutch源代码浅析（一）（概述）

最新推荐文章于 2021-12-28 12:29:22 发布

luoyt99

最新推荐文章于 2021-12-28 12:29:22 发布

阅读量1.1k

点赞数

文章标签： parsing command class 脚本 path generator

本文链接：https://blog.youkuaiyun.com/luoyt99/article/details/6240271

版权

1. Nutch 介绍

由两个部分组成： Crawling 和 Searching ， Crawling 部分负责抓取网页和建立索引，而 Searching 则是将 Crawling 过程中建立的 index 和 segments 根据用户的搜索请求返回结果。

本文分析的是 apache-nutch-1.2 。

2. Nutch的主流程

在 bin/ 目录下有一个 nutch 的脚本，这个脚本将被安装到安装目录的 bin 目录下，大体作用根据本脚本的路径得到 nutch 的安装目录（其中考虑到了 nutch 是 soft link 的情况），而后 JRE 的堆栈大小，还有 classpath 信息。最关键的代码如下：

此段代码则从该脚本进入了 java 代码。我们来看看 crawl 是如何工作的。打开 src/java/org/apache/nutch/crawl/Crawl.java ， Crawl 的 main 函数如下：从命令行解析传递进来的参数，可以看到rootUrlDir的处理比较特殊，因为其他参数都是配对出现（例如-dir后面紧跟着的是指明的文件夹路径），而rootUrlDir则是最后落单的那个参数。

下面就开始进入正题了：

首先调用Injector的inject函数将rootUrlDir目录下的所有文件中的网址注入到crawlDb数据库。
根据指定的抓取深度，循环做以下三件事：
- 调用Generator的generate函数，产生URL的fetchlist，并放在一个或者多个segments中。
- 调用Fetcher的fetch函数，获取segs[0]所制定的segement，并Parsing，parsing操作可以是集成在了fetch这一步，也可以是单独下一步来做。这儿值得注意的是，只取了第一个seg，而数组中有可能有多个seg，没有fetch。
- 调用CrawlDb的update函数，将segments中的fetch和parsing的数据合并到数据库（crawlDb）中。这里取的是segs数组，我觉得这儿可能是有问题的。
建立并合并索引。

// initialize crawlDb injector.inject(crawlDb, rootUrlDir); int i; for (i = 0; i < depth; i++) { // generate new segment Path[] segs = generator.generate(crawlDb, segments, -1, topN, System . currentTimeMillis()); if (segs == null) { LOG.info("Stopping at depth=" + i + " - no more URLs to fetch."); break; } fetcher.fetch(segs[0], threads, org.apache.nutch.fetcher.Fetcher. isParsing(conf)); // fetch it if (!Fetcher.isParsing(job)) { parseSegment.parse(segs[0]); // parse it, if needed } crawlDbTool.update(crawlDb, segs, true, true); // update crawldb } if (i > 0) { linkDbTool.invert(linkDb, segments, true, true, false); // invert links // index, dedup & merge FileStatus[] fstats = fs.listStatus(segments, HadoopFSUtil.getPassDirectoriesFilter(fs)); if (isSolrIndex) { SolrIndexer indexer = new SolrIndexer(conf); indexer.indexSolr(solrUrl, crawlDb, linkDb, Arrays. asList(HadoopFSUtil.getPaths (fstats))); } else { DeleteDuplicates dedup = new DeleteDuplicates(conf); if(indexes != null) { // Delete old indexes if (fs.exists(indexes)) { LOG.info( "Deleting old indexes: " + indexes); fs.delete(indexes, true); } // Delete old index if (fs.exists(index)) { LOG.info( "Deleting old merged index: " + index); fs.delete(index, true); } } Indexer indexer = new Indexer(conf); indexer.index(indexes, crawlDb, linkDb, Arrays. asList(HadoopFSUtil.getPaths (fstats))); IndexMerger merger = new IndexMerger(conf); if(indexes != null) { dedup.dedup( new Path[] { indexes }); fstats = fs.listStatus(indexes, HadoopFSUtil. getPassDirectoriesFilter(fs)); merger.merge(HadoopFSUtil. getPaths(fstats), index, tmpDir); } } } else { LOG.warn("No URLs to fetch - check your seed list and URL filters."); } if (LOG.isInfoEnabled()) { LOG.info( "crawl finished: " + dir); } }