2021SC@SDUSC
Gecco是一款用java语言开发的轻量化的易用的网络爬虫。作为国内大佬研发的java网络爬虫,Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架,我们使用者只需要配置一些jquery风格的选择器就能很快的写出一个爬虫。同时这个Gecco框架有优秀的可扩展性,框架基于开闭原则进行设计,对修改关闭、对扩展开放。
以上是gecco爬虫官网的介绍,作为一个java爬虫,它
- 简单易用,使用jquery风格的选择器抽取元素
- 支持爬取规则的动态配置和加载
- 支持页面中的异步ajax请求
- 支持页面中的javascript变量抽取
- 利用Redis实现分布式抓取
- 支持结合Spring开发业务逻辑
- 支持htmlunit扩展
- 支持插件扩展机制
- 支持下载时UserAgent随机选取
- 支持下载代理服务器随机选取
其中的quick start提供了一个简易的网络爬虫
@Gecco(matchUrl="https://github.com/{user}/{project}", pipelines="consolePipeline")
public class MyGithub implements HtmlBean {
private static final long serialVersionUID = -7127412585200687225L;
@RequestParameter("user")
private String user;//url中的{user}值
@RequestParameter("project")
private String project;//url中的{project}值
@Text
@HtmlField(cssPath=".repository-meta-content")

本文介绍了Gecco这款由国内开发者创建的Java轻量化爬虫,它整合了多个优秀框架,如jsoup和htmlunit等,允许用户通过jQuery选择器轻松实现爬虫编写。Gecco具有良好的可扩展性,支持动态配置、分布式抓取、JavaScript处理等功能。作者计划使用Gecco爬取电商和博客数据,以深入理解爬虫的工作原理和设计思路。
最低0.47元/天 解锁文章
1033

被折叠的 条评论
为什么被折叠?



