自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 某聘__zp_stoken__参数逆向还原

某聘__zp_stoken__参数最新逆向还原

2025-01-07 20:14:58 1153 2

原创 PermissionError: [Errno 13] Permission denied

使用requests伪造ja3指纹时,遇到以下报错。

2024-07-16 15:00:03 344

原创 爬虫requests使用代理报错Your proxy appears to only use HTTP and not HTTPS...

requests2.28.2版本使用代理only use HTTP and not HTTPS问题

2023-02-21 21:39:47 3841 1

原创 requests模块获取响应response.content和response.text效率对比

请求的链接:https://www.amazon.com/gp/twister/ajaxv2?ptd=CLIMBING_PLANT_SUPPORT_STRUCTURE&pgid=HOME&auiAjax=1&text=1&ee=2&parentAsin=B09QBPLV27&enPre=1&asinList=B07JZ8SYLQ&id=B07JZ8SYLQ输出获取响应的时间:response = requests.get(url,heade

2022-05-17 19:03:10 376

原创 python3将unicode编码\u60f3\u4f60\u4e86转换成中文

text = '\u60f3\u4f60\u4e86'text.encode('utf-8').decode("unicode_escape")print(text) # 想你了

2021-12-15 16:08:08 16976

原创 python单例模式连接redis数据库

网上找了一圈单例模式连接redis,资源很少,找到了也是不可用的。自己动手写一个,测试可用。import redisclass RedisModel(object): _pool = None def __init__(self): print('init') self._conn = redis.Redis(connection_pool=RedisModel._pool) def __new__(cls, *args, **kwargs

2021-11-10 10:09:14 1921

原创 解决gitlab-runner执行docker命令提示权限不足的问题

在runner上运行任务的时候使用的是gitlab-runner账户,使用docker时会提示权限不足问题:1、验证是否gitlab-runner有权访问Docker:sudo -u gitlab-runner -H docker info没有权限会显示如下:2、将gitlab-runner用户添加到docker组sudo usermod -aG docker gitlab-runner3、出现以下信息表明有docker权限参考:https://docs.gitl.

2021-07-03 16:26:21 2941

原创 python爬虫解决使用代理报错ssl问题

在使用requests爬虫抓取某电商网站的时候,不使用代理ip则正常,使用代理ip就报这个异常requests.exceptions.SSLError: HTTPSConnectionPool(host='xxx', port=443): Max retries exceeded with url: xxx (Caused by SSLError(SSLError(1, '[SSL: UNKNOWN_PROTOCOL] unknown protocol (_ssl.c:777)'),)) 使用参数v

2021-02-25 14:45:20 2602 1

原创 虾皮请求头 if-none-match逆向破解

虾皮请求头 if-none-match逆向破解接口url:https://xiapi.xiapibuy.com/api/v2/item/get?itemid=11708405&shopid=3525435加密规则: ‘55b03-’ +md5(’’+‘55b03’+md5(‘itemid=11708405&shopid=3525435’)+‘55b03’)以上内容仅供学习。逆向破解思路参考...

2021-02-23 17:32:49 2319 2

原创 第七章 多线程爬虫

问题一:如何提高程序的运行速度?​ 程序的运行速度,主要是由CPU来决定。要想提高程序运行速度,就要提高CPU的利用率。问题二:如何提高CPU的利用率?​ 1.不能让CPU休息----->多线程。用多个线程让CPU不断的在各个线程之间切换(这样CPU就不休息)。​ 使用多线程就可以提高CPU的利用率来提高程序运行速度。​ 多线程的特点:多个线程共享该进程的所有资源,也就是...

2019-12-07 21:07:17 355

原创 将爬取的数据保存到Excel表格

1、普通函数方法版将爬取的数据保存到excel表格 , 数据会比较直观。下面以保存python的关键词为例,介绍将数据保存到excel的详细流程。第一步、导入模块import xlwt # 导入写入excel需要的包第二步、定义函数,将爬取好的数据保存到excel文件中。def write_to_excel(filename, lst): # 为防止写入失败,捕获异常 ...

2019-12-06 20:09:38 13851 2

原创 第六章 使用ajax接口爬取数据

一、爬取网站流程1、分析网站的数据来源​ 分析网站结构,待爬取数据在哪。2、查看页面数据是否是直接渲染的​ url请求后响应后,页面数据就已经全部加载出来,为直接渲染,看能否通过requests模块获取到​ (1)在开发者工具中,找到页面的url这条数据。通过这条请求的信息来进行程序的书写。​ (2)在代码中通过requests模块封装请求头,查看response.text中是...

2019-12-05 21:11:38 492

原创 第五章 反爬措施、动态html之selenium

一、反扒策略1、通过user-agent来判断是不是爬虫​ 解决的办法:伪装user-agent客户端标识2、通过访问频率来判断​ 解决的办法:设置请求频率。time.sleep(random.randint(0,5))3、封ip​ 设置代理ip。​ requests.get(​ url,​ headers,​ params,​ proxies,代理字...

2019-12-05 19:26:36 524

原创 将爬取的数据保存到Excel表格

第一步、导入模块import xlwt # 导入写入excel需要的包第二步、定义函数,将爬取好的数据保存到excel文件中,下面以保存python的关键词为例,介绍详细流程。def write_to_excel(filename, lst): # 为防止写入失败,捕获异常 try: # 1 创建一个workbook,相当于创建excel文件 ...

2019-12-04 09:46:32 6658

原创 第四章 XPATH提取数据

一、xml简介1、定义​ xml 即为可扩展标记语言。2、特点​ xml 是具有自描述结构的半结构化数据。3、作用​ xml 设计宗旨主要是用来传输数据,还可以作为了一些应用配置文件。​二、xml和html的区别1、语法要求不同:xml 的语法要求更严格​ (1)html不区分大小写​ (2)html有时不严格,如果上下文清楚地显示出段落或者标签在何处结束,可以省略...

2019-12-02 20:48:00 345

原创 运用正则爬取猫眼电影流程

一、爬虫爬取网站流程1、分析网站的数据来源​ 分析网站结构,待爬取数据在哪。2、查看页面数据能否通过requests模块获取到​ (1)在开发者工具中,找到页面的url对应的请求。通过这条请求的信息来进行程序的书写。​ (2)在代码中通过requests模块封装请求头,查看response.text中是否有页面数据。3、如果有数据,就考虑是否有分页,分页如何实现4、实现分页之后...

2019-12-02 20:42:39 353

原创 第三章 会话和正则

一、cookie和session1、cookie和session产生的原因:​ 因为http协议是一个无状态的协议,需要借助cookie和session来保持访问的状态.2、cookie和session的区别​ cookie是用来在客户端保存状态的技术,seession是在服务器保存状态的技术。3、cookie的组成:​ name:名称,一旦创建,不可更改。​ value:cooki...

2019-12-01 19:38:42 159

原创 第二章 requests模块介绍

一、准备工作之anaconda的安装1.anaconda:一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项,安装anaconda避免了pip install流程。2.配置环境变量(1)为什么要配置环境变量?在cmd中输入一个python,其实操作系统会先从path环境变量里面的文件路径【从头】开始中去查找是否有python.exe可执行文件,如果...

2019-11-29 23:26:11 185

原创 第一章 初识爬虫

一 爬虫是什么?1、爬虫的定义:可以自动抓取万维网上信息的脚本或程序。2、爬虫可以解决的问题: (1)解决冷启动的问题。 (2)搜索引擎的根基。做搜索引擎,必须使用爬虫。 (3)帮助机器学习建立知识图谱。 机器学习最终的是训练集。训练集可以靠爬虫爬去。 (4)可以制作比较软件。二 搜索引擎1、搜索引擎定义:自动从互联网搜集信息,经过一定整理并保存,提供给用户进行查询的程序或系...

2019-11-28 22:56:37 209

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除