SeimiCrawler工程自动打包工具

最新推荐文章于 2025-09-10 11:30:58 发布

转载最新推荐文章于 2025-09-10 11:30:58 发布 · 89 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://my.oschina.net/u/589889/blog/600032

文章标签：

#爬虫 #java #python

SeimiCrawler是一款支持分布式的Java爬虫框架，旨在降低爬虫开发门槛。现提供maven-seimicrawler-plugin插件，简化爬虫项目的打包流程。使用该插件后，仅需执行mvncleanpackage命令即可完成打包。

2019独角兽企业重金招聘Python工程师标准>>>

为了便于开发者对使用SeimiCrawler框架开发的爬虫工程的打包部署，现已推出maven-seimicrawler-plugin，一个maven工程的自动化打包插件。下面简要介绍下他的使用。

开始

pom添加添加plugin

<plugin>
    <groupId>cn.wanghaomiao</groupId>
    <artifactId>maven-seimicrawler-plugin</artifactId>
    <version>1.0.0</version>
    <executions>
        <execution>
            <phase>package</phase>
            <goals>
                <goal>build</goal>
            </goals>
        </execution>
    </executions>
    <!--<configuration>-->
        <!-- 默认target目录 -->
        <!--<outputDirectory>/some/path</outputDirectory>-->
    <!--</configuration>-->
</plugin>

执行mvn clean package即可，包目录结构如下：

.
├── bin             # 相应的脚本中也有具体启动参数说明介绍，在此不再敖述
│   ├── run.bat    # windows下启动脚本
│   └── run.sh     # Linux下启动脚本
└── seimi
    ├── classes     # Crawler工程业务类及相关配置文件目录
    └── lib         # 工程依赖包目录

SeimiCrawler项目

SeimiCrawler是一个敏捷的，支持分布式的Java爬虫开发框架，希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛，以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里，绝大多数人只需关心去写抓取的业务逻辑就够了，其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发很大，同时融合了Java语言本身特点与Spring的特性，并希望在国内更方便且普遍的使用更有效率的XPath解析HTML，所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目，非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成（当然，数据处理亦可以自行选择其他解析器）。