ACHE 项目使用与启动教程

最新推荐文章于 2025-04-06 09:41:44 发布

张栋涓Kerwin

最新推荐文章于 2025-04-06 09:41:44 发布

阅读量818

点赞数 16

本文链接：https://blog.youkuaiyun.com/gitblog_00560/article/details/147021137

版权

ACHE 项目使用与启动教程

ache ACHE is a web crawler for domain-specific search. 项目地址: https://gitcode.com/gh_mirrors/ac/ache

1. 项目介绍

ACHE 是一个聚焦式网络爬虫。它专门收集满足特定条件的网页，例如属于给定域或包含用户指定模式的页面。与通用网络爬虫相比，ACHE 使用页面分类器来区分给定域中的相关和不相关页面。页面分类器可以是简单的正则表达式，也可以是基于机器学习的分类模型。

ACHE 支持多种特性，包括定期爬取固定网站列表、通过自动链接优先级设置发现和爬取新的相关网站、配置多种类型的页面分类器、持续重新爬取网站地图以发现新页面、使用 Elasticsearch 索引爬取的页面、提供实时搜索爬取页面的 Web 界面、REST API 和基于 Web 的爬虫监控系统、以及通过 TOR 代理爬取隐藏服务。

2. 项目快速启动

环境要求

Java (JDK 8 或最新版)
Docker (如使用 Docker 版本)
Conda (如使用 Conda 安装)

从源码构建

克隆仓库：

git clone https://github.com/ViDA-NYU/ache.git
cd ache

构建项目：
```
./gradlew installDist
```

配置环境变量：

export ACHE_HOME="{path-to-cloned-ache-repository}/ache/build/install/ache"
export PATH="$ACHE_HOME/bin:$PATH"

使用 Docker

运行最新镜像：

docker run -p 8080:8080 vidanyu/ache:latest

或者，自行构建镜像并运行：

git clone https://github.com/ViDA-NYU/ache.git
cd ache
docker build -t ache .
docker run -p 8080:8080 ache

使用 Conda

如果使用 Conda，可以安装 ACHE：

conda install -c vida-nyu ache

注意：通过 Conda 安装的版本可能不是最新的。

3. 应用案例和最佳实践

配置文件示例：在仓库的 config 目录中，提供了配置文件示例，可以帮助您快速开始使用 ACHE。
页面分类器配置：根据页面分类器文档来配置您的 pageclassifier.yml 文件。
种子文件：创建一个种子文件，每行包含一个 URL，爬虫将使用这些 URL 来启动爬取。
运行爬虫：使用以下命令启动爬虫：
```
ache startCrawl -o <data-output-path> -c <config-path> -s <seed-file> -m <model-path>
```
其中 <config-path> 是包含 ache.yml 的配置目录路径，<seed-file> 是种子文件路径，<model-path> 是包含 pageclassifier.yml 的模型目录路径，<data-output-path> 是数据输出目录路径。