Apache Nutch 1.x介绍

Nutch 是一个成熟的、可用于生产的 Web 爬网程序。Nutch 1.x 支持精细配置,依赖于 Apache Hadoop 数据结构,非常适合批处理。可插拔和模块化当然有它的好处,Nutch 为自定义实现提供了可扩展的接口,例如 Parse、Index 和 ScoringFilter,例如用于解析的 Apache Tika。此外,Apache Solr、Elastic Search、SolrCloud 等也存在可插拔索引。我们可以以自动方式找到网页超链接,减少大量维护工作,例如检查断开的链接,并创建所有访问过的页面的副本以供搜索。从此处下载二进制版本。

要求

安装 Nutch

选项 1:从二进制发行版设置 Nutch

  • 这里下载二进制包 ()。apache-nutch-1.X-bin.zip
  • 解压缩您的二进制 Nutch 软件包。应该有一个文件夹 .apache-nutch-1.X
  • cd apache-nutch-1.X/
    从现在开始,我们将使用 } 来引用当前目录 ()。${NUTCH_RUNTIME_HOMEapache-nutch-1.X/

选项 2:从源分配设置 Nutch

高级用户也可以使用源代码分发:

  • 下载源码包 (apache-nutch-1.X-src.zip)
  • 解 压缩
  • cd apache-nutch-1.X/
  • 在此文件夹中运行(参见 RunNutchInEclipseant)
  • 现在有一个目录,其中包含一个现成的 Nutch 安装。
    使用源分发时 } 引用 。请注意,runtime/local${NUTCH_RUNTIME_HOMEapache-nutch-1.X/runtime/local/
  • 配置文件应在apache-nutch-1.X/runtime/local/conf/
  • ant clean将删除此目录(保留修改后的配置文件的副本)

选项 3:从源设置 Nutch

Zee Yousing #CheckingTootakoftChandModifiyingit

验证您的 Nutch 安装

  • 运行 “” - 如果您看到类似于以下内容的内容,您可以确认安装正确:bin/nutch

 执行nutch命令,出现一下内容表明Apache Nutch安装成功

一些故障排除提示:

  • 如果您看到 “Permission denied(权限被拒绝)”,请运行以下命令:
chmod +x bin/nutch
  • 如果您看到 Setup 未设置。在 Mac 上,您可以运行以下命令或将其添加到 :JAVA_HOMEJAVA_HOME~/.bashrc
export JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/11/Home
# note that the actual path may be different on your system

 在 Debian 或 Ubuntu 上,您可以运行以下命令或将其添加到 ~/.bashrc 中:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

您可能还必须更新 /etc/hosts 文件。如果是这样,您可以添加以下内容

##
# Host Database
#
# localhost is used to configure the loopback interface
# when the system is booting.  Do not change this entry.
##
127.0.0.1       localhost.localdomain localhost LMC-032857
::1             ip6-localhost ip6-loopback
fe80::1%lo0     ip6-localhost ip6-loopback

请注意,上述内容应替换为您的机器名称。LMC-032857

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值