天猫淘宝知乎爬虫神器 -- Pyppeteer

天猫店铺爬虫文档 ---> Pyppeteer

前言:将天猫店铺爬虫封装成一个产品,最终可以在数据库中读取任意店铺自动化爬取

一、Pyppeteer的使用 --> Document

  1. Pyppeteer较Selenium的好处是可以注入JS来避免一些网站的识别,如淘宝,知乎

  2. 启动时的配置

    browser = await launch({'headless': True, 'args': ['--no-sandbox', '--user-data-dir=D:\job\pypeteer\_temp'],'dumpio': True}            ,'executablePath':'D:\\job\\spider_for_tb_search\\TMspider\\auto_crawl_ids\\chrome-win32\\chrome.exe')
    # 其中
    #   headless:True/False
    #   --no-sandbox 沙箱环境 必须
    #   --user-data-dir 如果出现 Unable to remove user data 表明你没有权限删除临时目录,应该自定义目录
    #   dumpio 对于淘宝必须设置 不然程序调用subprocess.Popen打开chrome之后stderr,stdout没有输出重定向,然后累积多了就卡住了。
    # executablePath 指定现有chrome执行路径 可跳过下载
    page.setJavaScriptEnabled(enabled=True) # 渲染JS
    page.evaluate(js1) # 执行js

     

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值