Node puppeteer cheerio爬虫解析Html代码

本文介绍了一种使用Puppeteer启动浏览器并结合Cheerio解析HTML的方法,实现网页数据抓取。通过设置浏览器参数,加载指定URL,获取页面源码,并利用Cheerio进行数据解析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

const puppeteer = require('puppeteer'); 
const cheerio = require('cheerio');

(async () => {

    const browser = await puppeteer.launch({        //启动浏览器

        headless: false

    });

    const page = await browser.newPage();       //开启浏览器新窗口
    await page.setViewport({            //配置窗口信息,具体配置的移步官方文档
        width:1920,
        height:1080
    });
    //await page.waitFor(5000); // 等待五秒,确保页面加载完毕  可以选择不写,一般加载完后会解析
    await page.goto('网址');         //当前窗口加载固定 url 地址页。url 需要以 https 开头
    
    let sum=await page.content();   //这是返回出来的html代码
    let $ = cheerio.load(sum);
    
    
    
    //然后进行逻辑处理

    browser.close();      //关闭浏览器,对象实例销毁
    console.log('ok');
})();

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值