Java分布式爬虫seimicrawler

本文介绍了一种基于SeimiCrawler的高效数据抓取方法,通过整合Spring框架、MyBatis及XPath技术,实现了对网页内容的有效解析。以代理IP爬取为例,详细展示了爬虫的开发流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近在扒一些数据,原本使用jsoup,但是发觉这个框架爬取的效率不高,用起来也不是很方便,了解了一些爬虫框架之后,决定使用SeimiCrawler来爬取数据。
开发环境:ideal+mybatis+SeimiCrawler
环境配置,具体的不解释,做过Java开发的明白,直接上配置文件:注意:SeimiCrawler相关的配置必须以seimi开头;
全局配置:seimi.xml

<?xml version="1.0" encoding="UTF-8"?>
<beans xmlns="http://www.springframework.org/schema/beans"
       xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
       xsi:schemaLocation="http://www.springframework.org/schema/beans
        http://www.springframework.org/schema/beans/spring-beans.xsd">
    <!--配置Seimi默认的基于redis数据队列的网络相关配置-->
    <bean id="propertyConfigurer" class="org.springframework.beans.factory.config.PropertyPlaceholderConfigurer">
        <property name="locations">
            <list>
                <value>classpath:**/*.properties</value>
            </list>
        </property>
    </bean>
</beans>

数据库全局配置:mybatis-config.xml

<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE configuration
        PUBLIC "-//mybatis.org//DTD Config 3.0//EN"
        "http://mybatis.org/dtd/mybatis-3-config.dtd">
<configuration>
    <!--配置全局属性-->
    <settings>
        <setting name="mapUnderscoreToCamelCase" value="true"/>
    </settings>
</configuration>

SeimiCrawler数据配置seimi-mybatis.xml:

<?xml version="1.0" encoding="UTF-8"?>
<beans xmlns="http://www.springframework.org/schema/beans"
       xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
       xmlns:context="http://www.springframework.org/schema/context"
       xsi:schemaLocation="http://www.springframework.org/schema/beans
       http://www.springframework.org/schema/beans/spring-beans.xsd
       http://www.springframework.org/schema/context
       http://www.springframework.org/schema/context/spring-context.xsd">
    <context:annotation-config/>
    <bean id="mybatisDataSource" class="org.apache.commons.dbcp2.BasicDataSource">
        <property name="driverClassName" value="${jdbc.driver}"/>
        <property name="url" value="${jdbc.url}"/>
        <property name="username" value="${jdbc.username}"/>
        <property name="password" value="${jdbc.password}"/>
    </bean>
    <bean id="sqlSessionFactory" class="org.mybatis.spring.SqlSessionFactoryBean" abstract="true">
        <property name="configLocation" value="classpath:mybatis-config.xml"/>
    </bean>
    <bean id="seimiSqlSessionFactory" parent="sqlSessionFactory">
        <property name="dataSource" ref="mybatisDataSource"/>
    </bean>
    <bean class="org.mybatis.spring.mapper.MapperScannerConfigurer">
        <property name="basePackage" value="com.morse.seimicrawler.dao"/>
        <property name="sqlSessionFactoryBeanName" value="seimiSqlSessionFactory"/>
    </bean>
</beans>

数据库引擎配置seimi.properties:

jdbc.driver=com.mysql.jdbc.Driver
jdbc.url=jdbc:mysql://localhost:3360/xiaohuo?useUnicode=true&characterEncoding=utf8&useSSL=false
jdbc.username=root
jdbc.password=123456

日志输出配置log4j.properties:

log4j.rootLogger=info, console, log, error

###Console ###
log4j.appender.console = org.apache.log4j.ConsoleAppender
log4j.appender.console.Target = System.out
log4j.appender.console.layout = org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern = %d %p[%C:%L]- %m%n

### log ###
log4j.appender.log = org.apache.log4j.DailyRollingFileAppender
log4j.appender.log.File = ${catalina.base}/logs/debug.log
log4j.appender.log.Append = true
log4j.appender.log.Threshold = DEBUG
log4j.appender.log.DatePattern='.'yyyy-MM-dd
log4j.appender.log.layout = org.apache.log4j.PatternLayout
log4j.appender.log.layout.ConversionPattern = %d %p[%c:%L] - %m%n


### Error ###
log4j.appender.error = org.apache.log4j.DailyRollingFileAppender
log4j.appender.error.File = ${catalina.base}/logs/error.log
log4j.appender.error.Append = true
log4j.appender.error.Threshold = ERROR 
log4j.appender.error.DatePattern='.'yyyy-MM-dd
log4j.appender.error.layout = org.apache.log4j.PatternLayout
log4j.appender.error.layout.ConversionPattern =%d %p[%c:%L] - %m%n

###\u8F93\u51FASQL
log4j.logger.com.ibatis=DEBUG
log4j.logger.com.ibatis.common.jdbc.SimpleDataSource=DEBUG
log4j.logger.com.ibatis.common.jdbc.ScriptRunner=DEBUG
log4j.logger.com.ibatis.sqlmap.engine.impl.SqlMapClientDelegate=DEBUG
log4j.logger.java.sql.Connection=DEBUG
log4j.logger.java.sql.Statement=DEBUG
log4j.logger.java.sql.PreparedStatement=DEBUG

基础配置到这里就配置完成了,接下来的就是实现爬虫业务了。
SeimiCrawler融合Spring,结合XPath,可以很方便的解析html,每一个爬虫的具体实现类需要放在包名为:xxx.crawlers的目录下,SeimiCrawler会自动扫描该目录下的文件,不然会找不到文件,爬虫无法启动。每一个爬虫需要集成BaseSeimiCrawler,并实现重写startUrls(),start(Response response)和回调接口。
下面以爬取代理IP为例,实现并对爬虫框架进行简单的二次封装:
基类爬虫BaseCrawler:

public abstract class BaseCrawler extends BaseSeimiCrawler {

    /**
     * 数据搜集前缀
     *
     * @return
     */
    protected abstract String getUrlPrefix();

    /**
     * 数据搜集后缀
     *
     * @return
     */
    protected abstract String getUrlsuffix();

    /**
     * 获取最大页数
     *
     * @param document
     * @return
     */
    protected abstract int getMaxPage(JXDocument document);

    /**
     * 数据解析
     *
     * @param response
     */
    public abstract void operation(Response response);

    /**
     * 设置头信息
     *
     * @return
     */
    protected Map<String, String> setHeader() {
        return null;
    }

    @Override
    public void start(Response response) {
        try {
            JXDocument document = response.document();
            int max = getMaxPage(document);
            for (int i = 1; i <= max; i++) {
                logger.info("当前为第{}页", i);
                push(Request.build(getUrlPrefix() + i + getUrlsuffix(), "operation").setHeader(setHeader()));
            }
        } catch (Exception e) {
            e.printStackTrace();
        }

    }
}

具体的爬虫实现SeCrawler:

@Crawler(name = "seCrawler")
public class SeCrawler extends BaseCrawler {

    @Autowired
    private ProxyIpStoreDao dao;

    @Override
    public String[] startUrls() {
        return new String[]{"https://ip.seofangfa.com/"};
    }

    @Override
    protected String getUrlPrefix() {
        return "https://ip.seofangfa.com/proxy/";
    }

    @Override
    protected String getUrlsuffix() {
        return ".html";
    }

    @Override
    protected int getMaxPage(JXDocument document) {
        try {
            List<Object> pages = document.sel("//div[@class='page_nav']/ul/li/a/text()");
            return Integer.parseInt((String) pages.get(pages.size() - 1));
        } catch (Exception e) {
            e.printStackTrace();
        }
        return 0;
    }

    @Override
    public void operation(Response response) {
        try {
            JXDocument document = response.document();
            List<Object> ips = document.sel("//table[@class='table']/tbody/tr/td[1]/text()");
            List<Object> ports = document.sel("//table[@class='table']/tbody/tr/td[2]/text()");
            List<Object> speeds = document.sel("//table[@class='table']/tbody/tr/td[3]/text()");
            List<Object> addres = document.sel("//table[@class='table']/tbody/tr/td[4]/text()");
            List<Object> times = document.sel("//table[@class='table']/tbody/tr/td[5]/text()");
            ProxyIp proxyIp = new ProxyIp();
            for (int i = 0; i < ips.size(); i++) {
                proxyIp.setIp((String) ips.get(i));
                proxyIp.setPort((String) ports.get(i));
                proxyIp.setSpeed((String) speeds.get(i));
                proxyIp.setAddr((String) addres.get(i));
                proxyIp.setTime((String) times.get(i));
                dao.insert(proxyIp);
                logger.info("插入代理IP:", proxyIp.toString());
            }
        } catch (Exception e) {

        }
    }
}

启动爬虫:

public static void main(String... agrs) {
        Seimi seimi = new Seimi();
        seimi.goRun("seCrawler");
    }

SeimiCrawler爬虫就是这么简单,你学会了吗?

SeimiCrawler(Java 爬虫框架)更新 支持在Request对象中,通过header(map)来自定义本次请求的header,以及支持通过seimiCookies来自定义cookies,自定义cookies会直接进入cookiesStore,对同域下第二次请求依然有效 优化默认启动方式,改造cn.wanghaomiao.seimi.boot.Run支持CommandLineParser,可以使用 -c 和-p来传参,其中-c用来指定crawlernames,多个用','分隔,-p指定一个端口,可以选择性的启动一个内嵌的http服务,并开启使用内嵌http接口 maven-compiler-plugin打包插件升级为1.3.0,完善Linux下的脚本,并增加启动配置文件,可以到maven-compiler-plugin主页详细查看 默认下载器改为Apache Httpclient,备用为下载器OkHttp3实现 优化部分代码 demo日志默认全部输出至控制台 SeimiCrawler(Java 爬虫框架)简介 SeimiCrawler是一个敏捷的,独立部署的,支持分布式Java爬虫框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发,同时融合了Java语言本身特点与Spring的特性,并希望在国内更方便且普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目,非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成(当然,数据处理亦可以自行选择其他解析器)。并结合SeimiAgent彻底完美解决复杂动态页面渲染抓取问题。 SeimiCrawler(Java 爬虫框架)展示   相关阅读 同类推荐:站长常用源码
SeimiCrawler An agile,powerful,standalone,distributed crawler framework. SeimiCrawler的目标是成为Java里最实用的爬虫框架,大家一起加油。 简介 SeimiCrawler是一个敏捷的,独立部署的,支持分布式Java爬虫框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发,同时融合了Java语言本身特点与Spring的特性,并希望在国内更方便且普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目,非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成(当然,数据处理亦可以自行选择其他解析器)。并结合SeimiAgent彻底完美解决复杂动态页面渲染抓取问题。 号外 2016.04.14 用于实现浏览器级动态页面渲染以及抓取的SeimiAgent已经发布。SeimiAgent基于Qtwebkit开发,主流浏览器内核(chrome,safari等),可在服务器端后台运行,并通过http协议发布对外调用API,支持任何语言或框架从SeimiAgent获取服务,彻底的解决动态页面渲染抓取等问题。具体可以参考SeimiAgent主页。SeimiCrawler已经在v0.3.0中内置支持SeimiAgent的使用并添加了demo,具体请查看demo或是官方文档。 2016.01.05 专门为SeimiCrawler工程打包部署的maven-seimicrawler-plugin已经发布可用,详细请继续参阅maven-seimicrawler-plugin或是下文工程化打包部署章节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值