
爬虫
文章平均质量分 80
回忆不说话
这个作者很懒,什么都没留下…
展开
-
请求延迟产生的__cfduid参数和cf_clearance参数解决思路
网址:https://www.ixian.cn/thread-1703333-1-1.html抓包之后,数据逻辑分析如下:数据在这个请求当中,需要的参数值:jschl_answer,jschl_vc,pass,r,其中jschl_vc,pass,r,三个参数在第一个503请求中有返回,直接拿来用即可。然后剩余一个参数:jschl_answer可以看到这个a的值即...原创 2020-01-15 16:54:02 · 3494 阅读 · 3 评论 -
新浪微博的协议登录
网址:https://www.weibo.com/登录的请求直接抓包获取,当点击登录的时候,提交了这样一个请求:其中su是base64加密的账号,sp是加密的密码。这个请求是点击登录之后出现的,追溯进去看看密码和账号是如何产生的。鼠标放上去,可以看到这是我们输入的账号密码以及验证码。继续追进去:到了这里便能够发现一点有用的东西了,账号和密码加密都在这里。...原创 2019-11-29 13:46:52 · 1936 阅读 · 0 评论 -
记一次滑块验证码协议通过的经历
网址:https://my.ztgame.com/plugin/pwd然后来看一下这个滑块验证码是如何通过的。打开F12:当我把滑块拉到这个位置的时候,产生了一次请求:请求返回的内容如下:jQuery112309196920250839282_1574913077019({"code":0,"token":"1npfs7s1a68cf2bf3g06vzmp7gjfz06...原创 2019-11-28 13:25:54 · 2259 阅读 · 0 评论 -
今日头条as和cp参数破解!
网址:https://www.toutiao.com/打开网址,抓包分析之后,数据在这个页面中:查看webView之后,发现有三个参数:需要去解决。先来试试不传这三个参数分别是什么情况?奇怪的发现,没有这个参数,也是可以拿到结果的,那我们要解决的就只有as和cp参数了。看到这个,是不是会以为这个as是个定值?下面那个框才是真正的值。跟着断点进...原创 2019-11-22 15:59:37 · 1076 阅读 · 0 评论 -
Requests方式登录网站
最近遇到了一个网站,需要登陆才能看到有效的信息,抓包之后发现:activity=login&mmqd=true&loginType=main&nsrsbh_Cert=&clientHello=&wsdlOper=proQxrzLogin&clientAuthCode=&serverRandom=&nsrsbh_SerNum=&am...原创 2019-04-26 16:56:12 · 2175 阅读 · 0 评论 -
request保持会话,寻找set-cookie来获取数据
今天遇到了 一个比较烦人的问题,爬取一个网站的时候,登陆返回的cookie和通过抓包获取的数据的cookie不一样,其中有个参数,找了半天,没找到。网址:https://i.keking.cn/user_index.html登陆返回的cookie是这个样子:acw_tc=2f624a7115548746919093682e53ca410b002b05e6d61724dbcfaaa50d...原创 2019-04-12 10:55:07 · 8962 阅读 · 0 评论 -
正则表达式
实例:匹配字符串:import recontent = 'Hello 123 4567 World_This is a Regex Demo'# match()# 第一个参数传入正则表达式,第二个参数传入要匹配的字符串result = re.match('^Hello\s\d{3}\s\d{4}\s\w{10}',content)print(result)# group可...原创 2018-11-06 20:10:26 · 166 阅读 · 0 评论 -
跟师傅学习的那点事儿--爬虫JS解密练习。
目标网站:https://www.icgoo.net/search/?partno=AD620&qty=1&tdsourcetag=s_pcqq_aiomsg要获取这个网页的信息。先来分析网页机构:所需要的信息在:拿出编译器,requests.get()发现没有这个信息。怎么办?打开fiddler,进行抓包。找到信息所在的请求。发现类似的请求,特...原创 2019-03-14 17:29:43 · 1242 阅读 · 4 评论 -
打码平台的对接
验证码打码平台的对接。1、打码平台的配置。#!/usr/bin/env python# coding:utf-8import requestsfrom hashlib import md5import shandong_configclass Chaojiying_Client(object): def __init__(self, username, pass...原创 2019-02-21 11:46:02 · 3671 阅读 · 1 评论 -
InsecureRequestWarning: Unverified HTTPS request is being made. 解决方式
import urllib3urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)简单粗暴!!!!原创 2019-04-18 18:43:14 · 2788 阅读 · 0 评论 -
Requests通过Session保持会话,获取数据
最近在爬一个网站,通过登录之后,获取信息。遇见的问题: 采取的selenium模拟登陆。因为有验证码的关系,直接用requests实现登陆不太方便,所以采用的selenium模拟登陆。 登陆之后,使用selenium中的get_cookies获取的cookie 并不能直接拿回数据,和数据所在的请求接口中的cookie有区别。 真实数据所在的...原创 2019-04-24 13:54:13 · 4306 阅读 · 1 评论 -
爬虫中线程,线程池,多线程,多进程,多线程+协程,单线程+协程的速度对比!!!!
首先用Flask搭建一个本地的页面:from flask import Flaskimport timeapp = Flask(__name__)@app.route('/')def index(): time.sleep(3) return 'Hello!'if __name__ == '__main__': app.run(threaded=True...原创 2019-05-06 11:37:46 · 762 阅读 · 1 评论 -
gevent初学,先来启动一个简单的爬虫
代码如下:from gevent import monkeyimport gevent.poolimport multiprocessing# 在进行IO操作时,默认切换协程monkey.patch_all()import requests# 调用了爬虫接口def run_Spider(i): url = 'http://127.0.0.1:5000' res =...原创 2019-05-06 14:43:27 · 411 阅读 · 0 评论 -
爬虫请求头遇见了X-CSRF-Token和c-token如何解决
如果遇见了,大多都是对token的加密。今天遇见了这样一个网站:想要获取验证码图片。抓包获取之后:requests.post()请求啊,但是请求之后一直在被网站拒绝,一直在报403.。后来回头重新看,才发现请求头中是有X-CSRF-Token和c-token来识别身份的。这个网站比较简单,这两个值是一样的。然后就找这两值所在的界面嘛。全局搜索之后,发现这个是明文传输...原创 2019-05-06 18:42:36 · 22900 阅读 · 0 评论 -
url中含有gb2312编码方式的参数解码
from urllib import parsestr2 = 'gb2312编码的字符串'str3 = parse.unquote(str2,encoding='gb2312')print(str3)原创 2019-07-23 19:50:38 · 1033 阅读 · 1 评论 -
scrapy中添加IP代理
获取IP:# coding:utf-8import requestsimport jsondef get_ip(): url = 'XXXXXX' # ip提取接口 print(requests.get(url).text) res = json.loads(requests.get(url).text)["data"][0] proxyHost...原创 2019-08-13 17:30:10 · 612 阅读 · 0 评论 -
scrapy+redis实现url去重和断续重连(增量爬取)
自定义过滤器:import hashlibfrom redis import StrictRedisfrom scrapy.dupefilters import RFPDupeFilterimport osimport redisfrom w3lib.url import canonicalize_urlclass URLRedisFilter(RFPDupeFilter):...原创 2019-08-13 17:38:41 · 1423 阅读 · 0 评论 -
cookie中__jsl_clearance参数的破解。
在爬取网站的时候遇见了这个参数很无解。详细内容如下:__jsluid_h; __jsl_clearance在请求详情页的时候需要这两个参数作为cookie的值。但是第一个__jsluid_h我可以在上一个请求中直接获取,因为此值在上一个请求头中的set-Cookie字段中会产生,拿回来做对比之后再做简单的处理即可直接使用。第二个__jsl_clearance如果不添加的话会一直...原创 2019-09-10 17:18:26 · 2913 阅读 · 0 评论 -
爬虫实战----JS解密练习
网站:http://ac.scmor.com/可以发现,当点击的时候,执行了一个函数,visit(),接着目标就是寻找到这个函数。在这里找到了这个函数。visit函数又执行了一个strdecode()的函数,下面目标转换,寻找strdecode()函数:ctrl+F 全局搜索, 上面的函数,又缺少了一个Gword的变量,这个变量经过寻找,在标签中找到了,接下...原创 2018-12-22 15:32:56 · 2393 阅读 · 0 评论 -
爬虫实战---Selenium爬取懒加载页面
爬取目标:https://sj.qq.com/myapp/category.htm?orgame=1&categoryId=122网页结构分析:由于这个网站是懒加载页面。我们需要拖动滚动条,来让页面的内容加载出来。拖动滚动条的代码如下:target = self.browser.find_element_by_class_name('load-more-btn'...原创 2018-12-17 09:11:52 · 5205 阅读 · 0 评论 -
关于xpath提取后内容转标签的一点经验。
result = html.xpath('//ul[@class="extension_ul"]/li')首先获取标签。for i in result: # etree.tostring()输出修正后的html代码,byte格式 # 转成utf-8格式,然后decode进行encoding 指定的编码格式解码字符串 print(etree.tostring(i,...原创 2018-12-15 15:19:32 · 1830 阅读 · 1 评论 -
模拟登陆Github
网址:https://github.com/login将上面箭头所指的位置勾选上,表示显示持续日志。然后输入账号密码,点击登录按钮,可以看到所有的请求过程。点击这个请求。url:Headers和Form Data的信息如下所示:从上面的观察分析中,只有cookies和authenticity_token无法直接构造,其余的都有。还记得不记得我们刚才的操作...原创 2018-10-11 20:26:41 · 918 阅读 · 0 评论 -
Python3中MySql的安装和基本用法。
1安装安装包下载地址:https://pypi.python.org/pypi/PyMySQL#downloads安装之后,在终端输入 pip install pymysql2,基本用法。(1)创建数据库找到安装目录,打开来到这个界面。然后自己设置的密码登录。进入之后,可以创建了。然后点击应用接着会到达这个界面就表示创建成功了。...原创 2018-08-08 20:43:55 · 4835 阅读 · 0 评论 -
浅谈python中的xpath用法
由于XPath属于lxml库模块,所以首先要安装库lxml,可以在命令提示符页面输入pip install lxmlxpath 是查询语言,可以在XML文档中查找信息的语言。主要用于在XML文档中通过元素和属性进行导航来查询。xpath的调用方法:from lxml import etreeindex_db = """ <!DOCTYPE html>...原创 2018-07-28 10:13:46 · 973 阅读 · 0 评论 -
浅谈Python中的bs4基础
安装在命令提示符框中直接输入pip install beautifulsoup4介绍beautifulsoup是python的一个第三方库,和xpath一样,都是用来解析html数据的。引入from bs4 import BeautifulSoup使用将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象。bs = BeautifulSoup...原创 2018-07-30 19:57:27 · 656 阅读 · 0 评论 -
今日头条爬取ajax请求。
网址:https://www.toutiao.com/搜索头条。可以得到这个网址:https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D开发者工具查看:我们在搜索中并没有发现上面的文字,那么我们可以初步判定,这个由Ajax加载,然后渲染出来的。此时切换到xhr过滤,可以看到确实是ajax请求。观察请...原创 2018-10-15 20:56:41 · 668 阅读 · 0 评论 -
selenium的使用
先来看一下功能实现,代码如下:from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions ...原创 2018-10-18 11:55:01 · 287 阅读 · 0 评论 -
爬虫实战-酷狗音乐数据抓取--XPath,Pyquery,Beautifulsoup数据提取对比实战
网站:http://www.kugou.com/yy/html/rank.html爬取目标:酷酷狗飙升榜的歌手,歌曲名字,歌曲链接等内容,存到Mysql数据库中网页解析:此次爬取采用三种解析方式:代码如下:import requestsfrom lxml import etreeimport pymongofrom pyquery import PyQue...原创 2018-11-28 16:04:35 · 1584 阅读 · 0 评论 -
bilibili用户信息的抓取
网址https://space.bilibili.com/打开之后可能会跳到登录界面,登录进去分析网页,个人信息的网页如下:然后点击进去别人的个人中心,看看网址的区别:区别就是后面的数字不一样了,可以尝试多点几个个人中心去试试。接下来构造请求头。代码如下:headers = { 'User-Agent': 'Mozilla/5.0 (Windows...原创 2018-10-25 11:23:12 · 14009 阅读 · 14 评论