
爬虫技巧
有意识的呼吸
优快云就是个笔记本。
展开
-
自定义scrapy启动器
一个偶然写的模板# 此文件用来启动指定爬虫import configparser as cpsimport os, time, sLogin, sys, base64from scrapy import cmdline# 配置文件目录ini_path = "E:\Code\Zhihu3.0\huxijun.ini"class Scp(): def makedir(self...原创 2019-12-21 21:56:56 · 224 阅读 · 0 评论 -
Selenium 作为 Scrapy 的下载中间件
众所周知,大部分网页的数据都是能通过静态 html 分析快速得到的,但是遇到 ajax 动态数据和 js 加密的网页后就很难直接获取到想要的数据。而 Selenium 就能直接规避麻烦的部分,模拟浏览器直接获得数据。以我上篇文章抓取简书的数据为例,这里的专题就是通过 ajax 才能得到。而且标签名都加了密:下面是源码:from selenium.webdriver impor...原创 2019-09-05 08:00:16 · 456 阅读 · 0 评论 -
python 爬虫常用User-Agent 以及 随机请求头
官网跳转:http://www.useragentstring.com/pages/useragentstring.php"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36","Mozilla/5.0 (Windows N...原创 2019-09-03 03:50:22 · 837 阅读 · 0 评论