Norconex Collector-HTTP 项目教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00905/article/details/142273207

Norconex Collector-HTTP 项目教程

collector-http Norconex Web Crawler (or spider) is a flexible web crawler for collecting, parsing, and manipulating data from the Internet (or Intranet) to various data repositories such as search engines. 项目地址: https://gitcode.com/gh_mirrors/co/collector-http

1. 项目介绍

Norconex Collector-HTTP 是一个灵活的网络爬虫（或蜘蛛）项目，用于从网络和文件系统中收集、解析和操作数据，并将其存储到各种数据仓库中，如搜索引擎。该项目非常灵活、功能强大、易于扩展，并且可以在任何操作系统上使用文件配置或嵌入到Java应用程序中。

主要特点

灵活性：支持多种数据源和目标存储。
强大功能：提供丰富的配置选项和API。
易于扩展：可以通过插件和自定义代码进行扩展。
跨平台：支持在任何操作系统上运行。

2. 项目快速启动

环境准备

Java 8 或更高版本
Maven 3.x

快速启动步骤

克隆项目

git clone https://github.com/Norconex/collector-http.git
cd collector-http

构建项目
```
mvn clean install
```

配置爬虫 在 collector-http/crawler/web/src/main/resources/ 目录下创建一个配置文件 my-crawler.xml，内容如下：

<crawler id="my-crawler">
    <startURLs>
        <url>http://example.com</url>
    </startURLs>
    <workDir>./workdir</workDir>
    <maxDepth>10</maxDepth>
    <maxDocuments>100</maxDocuments>
    <delay default="5000"/>
    <importer>
        <postParseHandlers>
            <tagger class="com.norconex.importer.handler.tagger.impl.KeepOnlyTagger">
                <fields>title,keywords,description,document.reference</fields>
            </tagger>
        </postParseHandlers>
    </importer>
    <committer class="com.norconex.committer.core.impl.FileSystemCommitter">
        <directory>./output</directory>
    </committer>
</crawler>

运行爬虫

java -cp collector-http/crawler/web/target/collector-http-2.x.x.jar:collector-http/crawler/web/target/lib/* com.norconex.collector.http.HttpCollector my-crawler.xml