webmagic addTargetRequests 不抓二级页面的问题

最新推荐文章于 2023-07-25 00:12:44 发布

原创

最新推荐文章于 2023-07-25 00:12:44 发布 · 789 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #java

本文介绍使用WebMagic爬虫框架遇到的问题及解决方法。针对爬虫无法抓取二级页面内容的情况，通过深入分析源码，发现spawnUrl参数设置不当导致链接未加入调度队列，并给出了解决方案。

最近在做一个信息采集项目，需要用到爬虫，调研了市面上的爬虫框架，最终选择webmagic

首先，有一个需求是这样的，爬虫需要先去抓取列表页的href链接，抓完之后，再把这些链接放到一个队列里，爬虫再从队列里poll出来，再去抓每个链接里的详情内容，也就是addTargetRequests 的逻辑。

但是实际上，爬虫只抓了初始列表的数据，详情页的抓取逻辑没执行，一开始，看了文档，设置setSpawnUrl(true),仍然无效。只能从源码上找问题。
webmagic的启动大概有两种方法，一是调用run方法；二是调用get或者getAll

run 方法,新开一个线程去爬取数据

public void run() {
   
   
        checkRunningStat();
        initComponent();
        while (!Thread.currentThread().isInterrupted() && stat.get() == STAT_RUNNING) {
   
   
        	//这个scheduler 存储了要爬取的url
            Request poll = scheduler.poll(this);
            if (poll == null) {
   
   
                if (threadPool.getThreadAlive() == 0) {
   
   
                 
                    poll = scheduler.poll(this);
                    if (poll == null) {
   
   
                        if (exitWhenComplete) {
   
   
                            break;
                        } else {
   
   
                        
                            try {
   
   
                                Thread.sleep(emptySleepTime);
                                continue;

最低0.47元/天解锁文章