ACHE 项目使用与启动教程
ache ACHE is a web crawler for domain-specific search. 项目地址: https://gitcode.com/gh_mirrors/ac/ache
1. 项目介绍
ACHE 是一个聚焦式网络爬虫。它专门收集满足特定条件的网页,例如属于给定域或包含用户指定模式的页面。与通用网络爬虫相比,ACHE 使用页面分类器来区分给定域中的相关和不相关页面。页面分类器可以是简单的正则表达式,也可以是基于机器学习的分类模型。
ACHE 支持多种特性,包括定期爬取固定网站列表、通过自动链接优先级设置发现和爬取新的相关网站、配置多种类型的页面分类器、持续重新爬取网站地图以发现新页面、使用 Elasticsearch 索引爬取的页面、提供实时搜索爬取页面的 Web 界面、REST API 和基于 Web 的爬虫监控系统、以及通过 TOR 代理爬取隐藏服务。
2. 项目快速启动
环境要求
- Java (JDK 8 或最新版)
- Docker (如使用 Docker 版本)
- Conda (如使用 Conda 安装)
从源码构建
-
克隆仓库:
git clone https://github.com/ViDA-NYU/ache.git cd ache
-
构建项目:
./gradlew installDist
-
配置环境变量:
export ACHE_HOME="{path-to-cloned-ache-repository}/ache/build/install/ache" export PATH="$ACHE_HOME/bin:$PATH"
使用 Docker
-
运行最新镜像:
docker run -p 8080:8080 vidanyu/ache:latest
-
或者,自行构建镜像并运行:
git clone https://github.com/ViDA-NYU/ache.git cd ache docker build -t ache . docker run -p 8080:8080 ache
使用 Conda
如果使用 Conda,可以安装 ACHE:
conda install -c vida-nyu ache
注意:通过 Conda 安装的版本可能不是最新的。
3. 应用案例和最佳实践
-
配置文件示例:在仓库的
config
目录中,提供了配置文件示例,可以帮助您快速开始使用 ACHE。 -
页面分类器配置:根据页面分类器文档来配置您的
pageclassifier.yml
文件。 -
种子文件:创建一个种子文件,每行包含一个 URL,爬虫将使用这些 URL 来启动爬取。
-
运行爬虫:使用以下命令启动爬虫:
ache startCrawl -o <data-output-path> -c <config-path> -s <seed-file> -m <model-path>
其中
<config-path>
是包含ache.yml
的配置目录路径,<seed-file>
是种子文件路径,<model-path>
是包含pageclassifier.yml
的模型目录路径,<data-output-path>
是数据输出目录路径。
4. 典型生态项目
目前没有提供具体的典型生态项目信息。用户可以根据 ACHE 的特性和功能,结合自己的需求,开发出适合自己项目的生态解决方案。
ache ACHE is a web crawler for domain-specific search. 项目地址: https://gitcode.com/gh_mirrors/ac/ache
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考