自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 python抓取 好看视频通过关键字搜索后,详细地址里面的视频video提取下载

下面的这个就是一些分析过程的东西, 直接给效果吧。也是在网上找到的解决方案。

2025-03-14 11:19:24 186

原创 小红书视频链接,下载原视频分析。有个需求是小红书链接,视频下载到本地

小红书文章视频链接分析,抓取

2024-12-11 17:17:15 456

原创 头条文章链接,详细页面里面的视频地址下载分析、提取下载

【代码】头条文章链接,详细页面里面的视频地址下载分析、提取下载。

2024-12-11 13:49:20 1169

原创 小红书 详细评论接口,x-s 补环境。直接上补完环境后的代码,获取详细评论 及 翻页

一般传入的是 url = ‘https://www.xiaohongshu.com/explore/6730a9f4000000003c0195d3?详细评论里面有个翻页的操作, 是里面的 cursor 参数 来实现翻页的。具体的分析过程, 其他的大佬都讲的 很清晰了, 怎么找到的 怎么分析的 去看看。好了, 大概的东西 就是这样子了。多的不说 少的不唠。需要注意的是 url 的处理。因为我代码里面是封装的项目,就不上传了。翻页的 大致代码 是这样子的。获取到 详细评论的数据了。

2024-11-13 11:40:36 1386 1

原创 某音ab,a_bogus加密解析,多的不说,少的不唠,直接上代码

这个东西卡了好久 一直被补环境卡着了,找到了这个 补出来了,分享下。

2024-08-14 16:26:34 798 1

原创 某音 js 补环境代码块,通配基础环境

某音 js 补环境

2024-08-12 14:29:58 354

原创 解决 首次pyppeteer使用报错,下载Chromium浏览器失败,查了很多都不能解决 OSError: Chromium downloadable not found at

自己安装了以后, 我打算来调用是一下结果就报错了,问题说在 await launch() 位置有问题, 问了 GPT 说,下载的东西没找到,也打开这个链接了 确实没有这是报错信息,按照这个信息 找了半天但是没有结果。网上也看了很多帖子,但是给出的地址都不能访问,没有头绪。不过我回过来想到, 我是有运行成功的环境的,我突然想到是不是版本的问题:,我对比了下 我运行正常的版本好好好,版本确实有点差异,安装回旧版本试试然后运行代码 不报错了,正常返回。

2024-04-26 17:45:29 3295 8

原创 linux上面 根据已知端口号,找到对应的项目路径(Linux下根据进程号查找程序路径)

Linux下根据进程号查找程序路径

2024-04-24 14:42:47 677

原创 记录一下,adb调试工具与夜神模拟器版本号不匹配问题解析及解决方案

报错这个错误通常是因为你的ADB客户端版本与ADB服务器版本不匹配导致的。你可以尝试更新ADB到与服务器版本匹配的版本。首先在 cmd 下面 看自己的adb是什么版本然后 cmd打开以后 再进去自己的夜神模拟器下面的路径(每个人加压安装的位置不一样,记得换自己的哈)执行这就看到了,两个的adb版本是不一样的。

2024-04-19 14:52:55 610

原创 【爬虫反爬应对思路】爬虫反爬的一些基础情况及应对思路

猫眼的 评分信息,页面跟抓包展示不一致,会展示出特别字符在无痕模式准备抓包,打开网址,可以找到它的数字就像一段乱码,这就是它自定义的字体:处理方法:我们可以将数字和自定义字体对应起来,比如7对应的就是。

2024-04-12 09:40:45 1191

原创 python 爬虫模拟浏览器,使用pyppeteer 进行抓取操作,简单无需安装很多环境

主要是讲了 有这个库,需要研究的 可以去研究下。

2024-03-29 10:11:54 342

原创 网页返回title“Just a moment...“,python 绕过tls指纹的几种方式 记录一下

第一种: 使用 tls_client 第三方库进行绕过。

2024-03-28 09:23:34 3129 1

原创 解决pip install速度慢、网络速度较慢总是卡死的办法

在使用Python时,我们经常需要用到pip安装第三方包。但是,在某些情况下,由于网络速度慢或者其他各种原因,pip install会非常慢,甚至可能无法完成。为了解决这个问题,尝试提供以下几种方法。

2023-09-20 10:55:59 10439 5

原创 python 定时启动装置BlockingScheduler(如何启动及如何设置参数) 、APScheduler(Python化的Cron)使用总结

APScheduler全程为Advanced Python Scheduler,是一款轻量级的Python任务调度框架。它允许你像Cron那样安排定期执行的任务,并且支持Python函数或任意可调用的对象。官方文档:https://apscheduler.readthedocs.io/en/latest/userguide.html#basic-concepts。

2023-03-15 14:56:06 6163

原创 python http请求中post请求参数显示是 Request Payload 是一个列表

因为不是json数据,是text的, 直接放在body里面 就可以了。这种分几种情况, 一种为 : json , 一种为:text。直接写成data就可以了 , 用字段串 包起来;今天碰到这个情况,还是记录下。

2023-03-02 17:52:38 544

原创 Scrapy 如何正确发送 POST请求 获取到响应数据的三种写法

但如果你看过 Scrapy 的官方文档(https://doc.scrapy.org/en/latest/topics/request-response.html#jsonrequest),你就会知道,实际上 Scrapy 原本就提供了一个专门用来POST 提交 JSON 数据的方式——JsonRequest。它的位置在scrapy.http.JsonRequest。第二种回答,会建议你使用scrapy.Request(url, method=‘POST’, body=json.dumps(xxx))。

2023-02-28 15:55:55 1544

原创 关于python爬虫爬取网站时,数据返回中有 <![CDATA[ 字样的数据,xpath取不到值,解析问题及问题解决方案

XML CDATA ,XML 文档中的所有文本均会被解析器解析。只有CDATA 区段中的文本会被解析器忽略。

2023-02-10 17:08:27 2274 2

原创 解决scrapy需要批量启动多个脚本的问题,scrapy 批量运行脚本方式

今天遇到在远程服务器上,os 批量启动时存在启动不了的情况,使用scrapy自带的方式批量启动项目脚本

2023-01-28 17:06:53 383

原创 python关于 post 网站http请求中 存在form data 参数带有 params字样数据,解决数据返回响应

python 在这个请求的时候, 下意识的 就是关键字参数,但是调试没有成功的。数据抓包是可以正常抓到的,但是在调试这个请求的时候 花了点时间;

2023-01-18 10:05:26 836

原创 xpath 晋级玩法,使用小技巧。python 爬虫必知必会骚操作。xpath 高级用法 深入浅出实用点汇集

爬虫 取值模块 xpath 深入浅出 小技巧。 装逼五分钟,挨打两小时的那种

2022-12-16 15:34:58 625

原创 python 24时制 时间转换 ,将12小时制AM \ PM 转换为24小时制

时间数据处理,将12小时制 转换为 24小时制 并输出

2022-09-23 15:37:22 1951

原创 解决 远程 服务器--Microsoft Windows CredSSP 远程执行代码漏洞(CVE-2018-0886)【原理扫描】(KB4103725 或 KB4103715)

Windows 2012 R2 修复CredSSP 远程执行代码漏洞 CVE-2018-0886

2022-09-02 09:21:18 9957 1

原创 关于Scrapy中的Pipeline管道中 存储mysql后是否处理后返回 item 的问题,个人理解

关于这个问题,我的理解是,假如你需要清洗数据后,在往下值才返回。只是储存的操作就没必要具体代码结构如下:class XiangmuPipeline(object): def process_item(self, item, spider): self.cursor.execute("""insert into t_company_building( company_base_id, building_id,title, publishdate, province,

2021-11-12 11:11:04 1179

原创 Python 如何快速启动scrapy,怎么打断点调试scrapy代码,在pycharm中可视化了

如何在scrapy中简单调试自己的代码,在pycharm中可视化了详细见图这上面就加了一个文件# -*- coding:utf-8 -*-from scrapy import cmdlinecmdline.execute(("scrapy crawl zhengfu").split())就这么简单, 就只需要在这个文件 加个 cmdline 这个包,就等同于在黑窗口上面写的 scrapy crawl zhengfu 。...

2021-11-11 17:14:37 1280

原创 关于Scrapy图片批量下载的用法及详细代码详解,scrapy图片重命名、放入不同文件夹。

好了,接下来开始!一、创建项目scrapy startproject ImagesRename# 下面写的创建爬虫的 自己写一个 ,自己写自己的需求, 我这里随便写一下。cd ImagesRenamescrapy genspider baidu baidu.com二、编写itemimport scrapyclass ImagesrenameItem(scrapy.Item): imgurl = scrapy.Field() imgname = scrapy.Field(

2021-11-11 17:01:51 1601

原创 关于 mysql 爬虫自用 数据库常用的一些操作

查询与主表关联不上的数据select * from a where ID not in ( select c.ID from demo c );查询重复数据select count(*) from t_company_branch where ID in (select ID FROM (select min(b.ID) ID, count(1)from t_company_branch b group by b.COMPANY_BASE_ID,b.BRANCH_OFFICE_NA

2021-07-31 10:36:15 112

原创 python scrapy框架关于redis 大量数据 批量导入的问题

关于查询数据库后,直接批量导入redis做缓存的问题具体步骤看详情代码:class MohurdRedis(object):# 打开数据库def __init__(self): self.db_conn = redis.StrictRedis(host='localhost', port=6379, db=12) self.conn = pymysql.connect(user=MYSQL_CONFIG['user'], passwd=MYSQL_CONFIG['passwd'],

2021-07-28 16:14:42 288

原创 关于 scrapy 中 COOKIES_ENABLED 设置 理解问题,看这里就够了

看了很多的文章, 感觉写的都有点扯淡 ,误人子弟 。源码中 : 默认是注释掉的,但是上面的备注写的是开启状态(没关系, 不管)。所以这个 就有了三个状态:1. 第一个 源码的 注释状态:# Disable cookies (enabled by default)# COOKIES_ENABLED = False这个状态下, 其实可以理解成 cookie 是开启的状态, 但是他的获取值 是通过源码的方法,直接获取到上层的cookie ,然后带到下一层去的。2. ...

2020-07-18 11:20:22 1707 2

原创 python scrapy 数据库里面的 mysql 同步 、异步写入

同步写入:import pymysqlfrom .items import Itemclass CheshiPipeline: def __init__(self): self.conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='mysql_db', charset='utf8') # 连接mysq

2020-06-30 15:30:23 356

原创 python 实现 请求网址保存图片, 并返回指定尺寸的图片大小

请求下载图片逻辑, 并按尺寸保存def get_img(self, url, category_num): # 取到图片,并保存。 res_title = url.split("/")[-1] path_ = '/img/crawl/' + str(category_num) + "/" if not os.path.exists(path_): os.makedirs(path_) # 创建一个文件,用来存储图片 try: .

2020-06-30 15:01:29 848

原创 python 运用 代码 实现 mysql 查询数据 快速导入进 redis 数据库

mysql 查询数据 快速导入进 redis 数据库class RedisDB(object): # 打开数据库 def __init__(self): self.db_conn = redis.StrictRedis(host='localhost', port=6379, db=4) self.mysql_db = DataBase() # 插入数据库数据 def insert_db(self): demo =

2020-06-30 14:45:22 280

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除