Nutch 是一个成熟的、可用于生产的 Web 爬网程序。Nutch 1.x 支持精细配置,依赖于 Apache Hadoop 数据结构,非常适合批处理。可插拔和模块化当然有它的好处,Nutch 为自定义实现提供了可扩展的接口,例如 Parse、Index 和 ScoringFilter,例如用于解析的 Apache Tika。此外,Apache Solr、Elastic Search、SolrCloud 等也存在可插拔索引。我们可以以自动方式找到网页超链接,减少大量维护工作,例如检查断开的链接,并创建所有访问过的页面的副本以供搜索。从此处下载二进制版本。
要求
- Unix 环境或 Windows-Cygwin 环境
- Java 运行时/开发环境 (JDK 11 / Java 11)
- (仅限源代码构建)Apache Ant:Apache Ant - Welcome
安装 Nutch
选项 1:从二进制发行版设置 Nutch
- 从这里下载二进制包 ()。
apache-nutch-1.X-bin.zip
- 解压缩您的二进制 Nutch 软件包。应该有一个文件夹 .
apache-nutch-1.X
cd apache-nutch-1.X/
从现在开始,我们将使用 } 来引用当前目录 ()。${NUTCH_RUNTIME_HOME
apache-nutch-1.X/
选项 2:从源分配设置 Nutch
高级用户也可以使用源代码分发:
- 下载源码包 (
apache-nutch-1.X-src.zip
) - 解 压缩
cd apache-nutch-1.X/
- 在此文件夹中运行(参见 RunNutchInEclipse
ant
) - 现在有一个目录,其中包含一个现成的 Nutch 安装。
使用源分发时 } 引用 。请注意,runtime/local
${NUTCH_RUNTIME_HOME
apache-nutch-1.X/runtime/local/
- 配置文件应在
apache-nutch-1.X/runtime/local/conf/
ant clean
将删除此目录(保留修改后的配置文件的副本)
选项 3:从源设置 Nutch
Zee Yousing #CheckingTootakoftChandModifiyingit
验证您的 Nutch 安装
- 运行 “” - 如果您看到类似于以下内容的内容,您可以确认安装正确:
bin/nutch
执行nutch命令,出现一下内容表明Apache Nutch安装成功
一些故障排除提示:
- 如果您看到 “Permission denied(权限被拒绝)”,请运行以下命令:
chmod +x bin/nutch
- 如果您看到 Setup 未设置。在 Mac 上,您可以运行以下命令或将其添加到 :
JAVA_HOME
JAVA_HOME
~/.bashrc
export JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/11/Home
# note that the actual path may be different on your system
在 Debian 或 Ubuntu 上,您可以运行以下命令或将其添加到 ~/.bashrc 中:
export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")
您可能还必须更新 /etc/hosts 文件。如果是这样,您可以添加以下内容
##
# Host Database
#
# localhost is used to configure the loopback interface
# when the system is booting. Do not change this entry.
##
127.0.0.1 localhost.localdomain localhost LMC-032857
::1 ip6-localhost ip6-loopback
fe80::1%lo0 ip6-localhost ip6-loopback
请注意,上述内容应替换为您的机器名称。LMC-032857