
爬虫
tzyyy1
有时候不在线,有问题或许您可以加我QQ一起交流:3154546513,备注优快云
展开
-
爬虫篇(11)高效selenium
前言:曾找过各种方式去加速selenium,然而效果都不尽人意,最后自己花了一些时间做了一个高效selenium模块,加上高效代理,一天请求百万次可能有些吃力(cpu、网速等各方面),但是几十万的请求次数在线上测试环境没什么问题。设计逻辑:使用Selenium(模拟浏览器)加上代理,一次启动可同时打开10个(可调整)页面发起请求,并使用字典绑定每个url对应的页面权柄。在等待一定加载时间后(如20秒,可调整),开始从第一个页面开始,利用Selenium显示等待WebDriverWait(在一定时原创 2021-07-08 20:24:56 · 840 阅读 · 6 评论 -
爬虫篇(10)权重代理池
前言:权重代理池是之前工作为采集亚马逊而开发,不出意外这个模块以后应该用不上了,但也是花了一些心力开发的,故写下这篇博客,一来纪念,二来分享,三来或许以后还有人会用到原创 2021-07-08 19:30:30 · 481 阅读 · 1 评论 -
python 一次Cookie池接口开发实战(附代码)
目录第一天修改第二天修改第三天修改第四天修改前言:今天是入职第一天,被技术经理分配工作:写一个Cookie池接口Cookie池要求:1、要有一个保存cookie的接口,保存文档不限制,存入mysql,txt文本,redis都行2、要有一个提取cooike的接口3、要给cookie加一个“有效时间”的属性,并且Cookie池可以清除掉超时的cookie4、要留出足...原创 2019-07-10 19:29:18 · 603 阅读 · 1 评论 -
爬虫篇(9)Fiddler抓包请求一键转换成python代码
前言:前段时间由于需求,用Fiddler各种抓包,各种分析,主要是测试请求时添加cookie、添加请求头、添加url, 虽然前面有一键转换cookie/headers的工具(可以看我前面博客),但还是有些烦琐。 想着能不能将Fiddler抓到的请求一键转换成Python代码,但是在网上找了一下,无果(有知道的同学可以评论留言,十分感谢), 于是决定自己写一个能将Fiddler一键转换成Python...原创 2019-08-05 20:09:17 · 9034 阅读 · 20 评论 -
爬虫篇(6)爬虫解析工具:xpath、bs4、jsonPATH
一、xpath的使用1、XML简介XML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记语言,很类似 HTMLXML 的设计宗旨是传输数据,而非显示数据XML 和 HTML 的区别数据格式描述设计目标XMLExtensible Markup Language (可扩展标记语言)被设计为传输和存储数据,其焦点是数据...转载 2019-07-25 19:04:41 · 677 阅读 · 1 评论 -
爬虫篇(8)浏览器请求一键转换成python代码——Curl转换
前言:很多时候我们想要写一个测试请求时,都要一行一行代码写,很不方便,前些天看到一篇Curl转换的代码的介绍,直呼没有早点看到,在无意义的代码上浪费了不少时间(其实最近刚好写了一个Fiddler一键转Python的代码,打算抽空写一个浏览器请求一键转换成python的代码,就看到了这篇博客,哈哈,感谢)。利用好Curl转换,我们可以一键将浏览器上的请求转换成Python代码(不仅仅是Python代...原创 2019-08-02 20:18:35 · 2402 阅读 · 0 评论 -
爬虫篇(7)一键转换爬虫请求头headers、Cookies (Fillder/各大浏览器适用)
参考:https://blog.youkuaiyun.com/qq_39802740/article/details/89884756前言:前些天看到一篇关于一键转换爬虫请求头headers的博客,不过感觉代码冗余度有些高,经过优化并添加了一些东西的东西后写了这篇博客代码:#!/usr/bin/python# -*- coding: UTF-8 -*-def get_header(hea...原创 2019-07-29 17:17:26 · 785 阅读 · 1 评论 -
爬虫篇(3)scrapy 去重与 scrapy_redis 去重与布隆过滤器(转)
在开始介绍 scrapy 的去重之前,先想想我们是怎么对 requests 对去重的。requests 只是下载器,本身并没有提供去重功能。所以我们需要自己去做。很典型的做法是事先定义一个去重队列,判断抓取的 url 是否在其中,如下:crawled_urls = set()def check_url(url): if url not in crawled_urls: ...转载 2019-06-24 09:40:31 · 734 阅读 · 0 评论 -
爬虫篇(2.3)scrapy通用爬虫以及setting设置中一些提升效率的方式
通用爬虫(Broad Crawls)Scrapy默认对特定爬取进行优化。这些站点一般被一个单独的Scrapy spider进行处理, 不过这并不是必须或要求的(例如,也有通用的爬虫能处理任何给定的站点)。除了这种爬取完某个站点或没有更多请求就停止的”专注的爬虫”,还有一种通用的爬取类型,其能爬取大量(甚至是无限)的网站, 仅仅受限于时间或其他的限制。 这种爬虫叫做”通用爬虫(broad c...翻译 2019-06-24 07:59:03 · 572 阅读 · 0 评论 -
爬虫篇(2.2)使用scrapy-jsonrpc简单教程
首先安装scrapy-jsonrpc:pip install scrapy-jsonrpc打开你的爬虫项目中setting.py文件,加入如下代码进行配置:EXTENSIONS = { 'scrapy_jsonrpc.webservice.WebService': 500,}JSONRPC_PORT = [6025]JSONRPC_ENABLED = True运行...原创 2019-06-23 23:38:07 · 1044 阅读 · 0 评论 -
爬虫篇(2.1)selenium开启开发者模式
from selenium import webdriverclass IPPOOlS(object): def __init__(self,ip=""): chromeOptions = webdriver.ChromeOptions() # chromeOptions.add_argument('-headless') # 设为无头模式 ...转载 2019-06-21 10:35:20 · 6634 阅读 · 0 评论 -
爬虫篇(2)使用pyexecjs破解js中cookies
首先下载pyexecjs:pip install PyExecJS如果有需要,自行下载PyV8 , Node.js , PhantomJS等使用参考:https://github.com/doloopwhile/PyExecJSPyExecJS文档:https://pypi.org/project/PyExecJS/此次采集链接:http://www.landchi...原创 2019-06-20 14:18:54 · 3211 阅读 · 0 评论 -
爬虫篇(1)-Scrapy - 基础(转)
ScrapyScrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。一、scra...转载 2019-03-09 16:38:02 · 1503 阅读 · 0 评论