Node puppeteer cheerio爬虫解析Html代码

最新推荐文章于 2024-05-02 00:52:08 发布

原创最新推荐文章于 2024-05-02 00:52:08 发布 · 1.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#nodejs

爬虫专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一种使用Puppeteer启动浏览器并结合Cheerio解析HTML的方法，实现网页数据抓取。通过设置浏览器参数，加载指定URL，获取页面源码，并利用Cheerio进行数据解析。

const puppeteer = require('puppeteer'); 
const cheerio = require('cheerio');

(async () => {

    const browser = await puppeteer.launch({        //启动浏览器

        headless: false

    });

    const page = await browser.newPage();       //开启浏览器新窗口
    await page.setViewport({            //配置窗口信息，具体配置的移步官方文档
        width:1920,
        height:1080
    });
    //await page.waitFor(5000); // 等待五秒，确保页面加载完毕  可以选择不写，一般加载完后会解析
    await page.goto('网址');         //当前窗口加载固定 url 地址页。url 需要以 https 开头
    
    let sum=await page.content();   //这是返回出来的html代码
    let $ = cheerio.load(sum);
    
    
    
    //然后进行逻辑处理

    browser.close();      //关闭浏览器，对象实例销毁
    console.log('ok');
})();