Koa2 + Puppeteer打造『爬虫系统』1

最新推荐文章于 2025-03-17 19:55:04 发布

可乐雪碧薄荷糖

最新推荐文章于 2025-03-17 19:55:04 发布

阅读量667

点赞数 1

CC 4.0 BY-SA版权

分类专栏：实战项目文章标签：爬虫 javascript vue 多进程 nodejs

本文链接：https://blog.youkuaiyun.com/Yesterday_Tomorrow/article/details/111467701

实战项目专栏收录该内容

24 篇文章

订阅专栏

本文介绍如何使用Puppeteer进行网页爬取，并通过子进程方式运行爬虫脚本，实现Koa2应用中爬虫功能的封装及调用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.Puppeteer的使用与注意事项

(1).环境准备

安装koa-generator

npm install -g koa-generator

koa2创建项目

koa2 crawler

安装koa对应依赖

打开对应文件

npm install

安装爬虫库

npm i puppeteer -S

(2).初始化项目

1.删除routes下的users，js

2.删除app.js下的users引入和注释router下的use

(3),爬虫初始

routes文件夹下的index.js文件写入

const router = require('koa-router')(),
      pt = require('puppeteer');

router.get('/', async (ctx, next) => {
  const bs = await pt.launch(),
        url = 'https://msiwei.ke.qq.com/#category=-1&tab=1',
        pg = await bs.newPage();
  await pg.goto(url,{
    timeout:30*1000,
    waitUtil:'networkidle2'
  })
  const result = await pg.evaluate(()=>{
    const $ = window.$,
          $item = $('.agency-big-banner-ul .agency-big-banner-li');
    let data = [];
    $item.each((index,item)=>{
      const $el = $(item),
            $elLink = $el.find('.js-banner-btnqq');
      const dataItem = {
        cid: $elLink.attr('data-id'),
        href: $elLink.prop('href'),
        imgUrl:$elLink.find('img').prop('src'),
        title:$elLink.prop('title')
      }
      data.push(dataItem)      
    })      
   return data;
  }) 
  console.log(result)
  await bs.close;     
})


module.exports = router

http://localhost:3000/访问爬取

二.启动子进程运行爬虫脚本

1.根目录下建立puppeteer文件夹，建立crawler.js文件

const pt = require('puppeteer');
;(async ()=>{
    const bs = await pt.launch(),
        url = 'https://msiwei.ke.qq.com/#category=-1&tab=1',
        pg = await bs.newPage();
  await pg.goto(url,{
    timeout:30*1000,
    waitUtil:'networkidle2'
  })
  const result = await pg.evaluate(()=>{
    const $ = window.$,
          $item = $('.agency-big-banner-ul .agency-big-banner-li');
    let data = [];
    $item.each((index,item)=>{
      const $el = $(item),
            $elLink = $el.find('.js-banner-btnqq');
      const dataItem = {
        cid: $elLink.attr('data-id'),
        href: $elLink.prop('href'),
        imgUrl:$elLink.find('img').prop('src'),
        title:$elLink.prop('title')
      }
      data.push(dataItem)      
    })      
   return data;
  }) 
  await bs.close;     
  process.send(result);
  setTimeout(()=>{
      process.exit(0)
  })
})();

2.更改routes文件夹下的index.js调用子进程，且处理进程返回值

const router = require('koa-router')(),
      cp = require('child_process'),
      {resolve} = require('path')

router.get('/', async (ctx, next) => {
  const script = resolve(__dirname,'../puppeteer/crawler.js'),
        child = cp.fork(script,[]);
  let invoked = false;
  child.on('message',(data)=>{
    console.log(data);
  })      
  child.on('exit',(code)=>{
    if(invoked){
      return
    }
    invoked = true;
    console.log(code);
  })
  child.on('error',(code)=>{
    if(invoked){
      return
    }
    invoked = true;
    console.log(code);
  })
})


module.exports = router

三.改造Koa2以及封装爬虫和开启子进程程序

1.建立lib文件夹,文件夹下建立crawler.js文件做爬取操作

const pt = require('puppeteer');
module.exports= async (options)=>{
    const bs = await pt.launch(),
          pg = await bs.newPage(),
          url = options.url;
    await pg.goto(url,{
        waitUtil:'networkidle2'
    })      
    const result = await pg.evaluate(options.callback);
    await bs.close();
    process.send(result);
    setTimeout(() => {
        process.exit(0)
    }, 1000);
}

2.再新建一个utils.js，做信息处理操作

const cp = require('child_process'),
      {resolve} = require('path');
module.exports={
    startProcess(options){
        const script = resolve(__dirname,options.path),
              child = cp.fork(script,[]);
        let invoked = false;
        child.on('message',(data)=>{
            options.message(data);
        })      
        child.on('exit',(code)=>{
            if(invoked){
                return
            }
            invoked = true;
            console.log(code);
        })
        child.on('error',(code)=>{
            if(invoked){
                return
            }
            invoked = true;
            console.log(code);
        })
    }
}

3.建立crawler文件夹，再建立slider.js，做传参调用爬取方法

const crawler = require('../lib/crawler')
crawler({
    url: 'https://msiwei.ke.qq.com/#category=-1&tab=1',
    callback() {
        const $ = window.$,
            $item = $('.agency-big-banner-ul .agency-big-banner-li');
        let data = [];
        $item.each((index, item) => {
            const $el = $(item),
                $elLink = $el.find('.js-banner-btnqq');
            const dataItem = {
                cid: $elLink.attr('data-id'),
                href: $elLink.prop('href'),
                imgUrl: $elLink.find('img').prop('src'),
                title: $elLink.prop('title')
            }
            data.push(dataItem)
        })


        return data;
    }
})

4.将routes下的index.js改为crawler.js，且更改app.js里的配置

const router = require('koa-router')(),
      crawlerController = require('../controller/crawler')
router.prefix('/crawler')
router.get('/crawl_slider_data',crawlerController.crawlSliderData )


module.exports = router