天猫店铺爬虫文档 ---> Pyppeteer
前言:将天猫店铺爬虫封装成一个产品,最终可以在数据库中读取任意店铺自动化爬取
一、Pyppeteer的使用 --> Document
-
Pyppeteer较Selenium的好处是可以注入JS来避免一些网站的识别,如淘宝,知乎
-
启动时的配置
browser = await launch({'headless': True, 'args': ['--no-sandbox', '--user-data-dir=D:\job\pypeteer\_temp'],'dumpio': True} ,'executablePath':'D:\\job\\spider_for_tb_search\\TMspider\\auto_crawl_ids\\chrome-win32\\chrome.exe') # 其中 # headless:True/False # --no-sandbox 沙箱环境 必须 # --user-data-dir 如果出现 Unable to remove user data 表明你没有权限删除临时目录,应该自定义目录 # dumpio 对于淘宝必须设置 不然程序调用subprocess.Popen打开chrome之后stderr,stdout没有输出重定向,然后累积多了就卡住了。 # executablePath 指定现有chrome执行路径 可跳过下载 page.setJavaScriptEnabled(enabled=True) # 渲染JS page.evaluate(js1) # 执行js