目 录
1. nutch简介
1.1 什么是nutch
1.2 研究nutch的原因
1.3 nutch的目标
1.4 nutch VS lucene
2. nutch的安装与配置
2.1 JDK的安装与配置
2.2 nutch的安装与配置
2.3 tomcat的安装与配置
3. nutch初体验
3.1 爬行企业内部网
3.1.1 配置nutch
3.1.2 配置tomcat
3.1.3 执行抓取结果
3.1.4 测试结果
3.1.5 Intranet Recrawl
3.2 爬行全网
3.2.1 nutch数据集的基本组成
3.2.2 爬行“官方”网址
3.2.3 爬行中文网址
4. nutch基本原理分析
4.1 nutch的基本组成
4.2 nutch工作流程
5. nutch工作流程分析
5.1 爬虫
5.1.1 工作策略
5.1.2 工作流程分析
5.1.3 其它
5.2 索引
5.2.1 索引主要过程
5.2.2 工作流程分析
5.2.3 倒排索引
5.2.4 其它
5.3 搜索
5.4 分析
5.5 nutch的其他一些特性
6. nutch分析方法和工具
6.1 Crawldb
6.2 Linkdb
6.3 Segments
6.4 Index
7. nutch分布式文件系统
7.1 概述
7.2 MapReduce
7.3 文件系统语法
7.4 文件系统设计
7.5 系统的可用性
7.6 Nutch文件系统工作架构
8. nutch应用
8.1 修改源码
8.2 插件机制---plugin
8.2.1 什么是plugin
8.2.2 使用plugin的好处
8.2.3 Plugin工作原理
8.2.4 编写plugin
8.3 API接口
8.3.1 使用NutchAPI
8.3.2 使用OpenSearchAPI
8.4 Nutch的应用前景
附录一: nutch的相关网站
附录二: 参考文献
文章下载地址(pdf版):
http://download.youkuaiyun.com/source/263539