da_pangzi-优快云博客

原创 python抓取好看视频通过关键字搜索后，详细地址里面的视频video提取下载

下面的这个就是一些分析过程的东西，直接给效果吧。也是在网上找到的解决方案。

2025-03-14 11:19:24 186

原创小红书视频链接，下载原视频分析。有个需求是小红书链接，视频下载到本地

小红书文章视频链接分析，抓取

2024-12-11 17:17:15 456

原创头条文章链接，详细页面里面的视频地址下载分析、提取下载

【代码】头条文章链接，详细页面里面的视频地址下载分析、提取下载。

2024-12-11 13:49:20 1169

原创小红书详细评论接口，x-s 补环境。直接上补完环境后的代码，获取详细评论及翻页

一般传入的是 url = ‘https://www.xiaohongshu.com/explore/6730a9f4000000003c0195d3?详细评论里面有个翻页的操作，是里面的 cursor 参数来实现翻页的。具体的分析过程，其他的大佬都讲的很清晰了，怎么找到的怎么分析的去看看。好了，大概的东西就是这样子了。多的不说少的不唠。需要注意的是 url 的处理。因为我代码里面是封装的项目，就不上传了。翻页的大致代码是这样子的。获取到详细评论的数据了。

2024-11-13 11:40:36 1386 1

原创某音ab,a_bogus加密解析，多的不说，少的不唠，直接上代码

这个东西卡了好久一直被补环境卡着了，找到了这个补出来了，分享下。

2024-08-14 16:26:34 798 1

原创某音 js 补环境代码块，通配基础环境

某音 js 补环境

2024-08-12 14:29:58 354

原创解决首次pyppeteer使用报错，下载Chromium浏览器失败，查了很多都不能解决 OSError: Chromium downloadable not found at

自己安装了以后，我打算来调用是一下结果就报错了，问题说在 await launch() 位置有问题，问了 GPT 说，下载的东西没找到，也打开这个链接了确实没有这是报错信息，按照这个信息找了半天但是没有结果。网上也看了很多帖子，但是给出的地址都不能访问，没有头绪。不过我回过来想到，我是有运行成功的环境的，我突然想到是不是版本的问题：，我对比了下我运行正常的版本好好好，版本确实有点差异，安装回旧版本试试然后运行代码不报错了，正常返回。

2024-04-26 17:45:29 3295 8

原创 linux上面根据已知端口号，找到对应的项目路径（Linux下根据进程号查找程序路径）

Linux下根据进程号查找程序路径

2024-04-24 14:42:47 677

原创记录一下，adb调试工具与夜神模拟器版本号不匹配问题解析及解决方案

报错这个错误通常是因为你的ADB客户端版本与ADB服务器版本不匹配导致的。你可以尝试更新ADB到与服务器版本匹配的版本。首先在 cmd 下面看自己的ａｄｂ是什么版本然后 cmd打开以后　再进去自己的夜神模拟器下面的路径(每个人加压安装的位置不一样，记得换自己的哈)执行这就看到了，两个的adb版本是不一样的。

2024-04-19 14:52:55 610

原创【爬虫反爬应对思路】爬虫反爬的一些基础情况及应对思路

猫眼的评分信息，页面跟抓包展示不一致，会展示出特别字符在无痕模式准备抓包，打开网址，可以找到它的数字就像一段乱码，这就是它自定义的字体：处理方法：我们可以将数字和自定义字体对应起来，比如7对应的就是。

2024-04-12 09:40:45 1191

原创 python 爬虫模拟浏览器，使用pyppeteer 进行抓取操作，简单无需安装很多环境

主要是讲了有这个库，需要研究的可以去研究下。

2024-03-29 10:11:54 342

原创网页返回title“Just a moment...“，python 绕过tls指纹的几种方式记录一下

第一种：使用 tls_client 第三方库进行绕过。

2024-03-28 09:23:34 3129 1

原创解决pip install速度慢、网络速度较慢总是卡死的办法

在使用Python时，我们经常需要用到pip安装第三方包。但是，在某些情况下，由于网络速度慢或者其他各种原因，pip install会非常慢，甚至可能无法完成。为了解决这个问题，尝试提供以下几种方法。

2023-09-20 10:55:59 10439 5

原创 python 定时启动装置BlockingScheduler（如何启动及如何设置参数）、APScheduler（Python化的Cron）使用总结

APScheduler全程为Advanced Python Scheduler，是一款轻量级的Python任务调度框架。它允许你像Cron那样安排定期执行的任务，并且支持Python函数或任意可调用的对象。官方文档：https://apscheduler.readthedocs.io/en/latest/userguide.html#basic-concepts。

2023-03-15 14:56:06 6163

原创 python http请求中post请求参数显示是 Request Payload 是一个列表

因为不是json数据，是text的，直接放在body里面就可以了。这种分几种情况，一种为： json , 一种为：text。直接写成data就可以了，用字段串包起来；今天碰到这个情况，还是记录下。

2023-03-02 17:52:38 544

原创 Scrapy 如何正确发送 POST请求获取到响应数据的三种写法

但如果你看过 Scrapy 的官方文档（https://doc.scrapy.org/en/latest/topics/request-response.html#jsonrequest），你就会知道，实际上 Scrapy 原本就提供了一个专门用来POST 提交 JSON 数据的方式——JsonRequest。它的位置在scrapy.http.JsonRequest。第二种回答，会建议你使用scrapy.Request(url, method=‘POST’, body=json.dumps(xxx))。

2023-02-28 15:55:55 1544

原创关于python爬虫爬取网站时，数据返回中有＜![CDATA[ 字样的数据，xpath取不到值，解析问题及问题解决方案

XML CDATA ，XML 文档中的所有文本均会被解析器解析。只有CDATA 区段中的文本会被解析器忽略。

2023-02-10 17:08:27 2274 2

原创解决scrapy需要批量启动多个脚本的问题，scrapy 批量运行脚本方式

今天遇到在远程服务器上，os 批量启动时存在启动不了的情况，使用scrapy自带的方式批量启动项目脚本

2023-01-28 17:06:53 383

原创 python关于 post 网站http请求中存在form data 参数带有 params字样数据，解决数据返回响应

python 在这个请求的时候，下意识的就是关键字参数，但是调试没有成功的。数据抓包是可以正常抓到的，但是在调试这个请求的时候花了点时间；

2023-01-18 10:05:26 836

原创 xpath 晋级玩法，使用小技巧。python 爬虫必知必会骚操作。xpath 高级用法深入浅出实用点汇集

爬虫取值模块 xpath 深入浅出小技巧。装逼五分钟，挨打两小时的那种

2022-12-16 15:34:58 625

原创 python 24时制时间转换，将12小时制AM \ PM 转换为24小时制

时间数据处理，将12小时制转换为 24小时制并输出

2022-09-23 15:37:22 1951

原创解决远程服务器--Microsoft Windows CredSSP 远程执行代码漏洞(CVE-2018-0886)【原理扫描】（KB4103725 或 KB4103715）

Windows 2012 R2 修复CredSSP 远程执行代码漏洞 CVE-2018-0886

2022-09-02 09:21:18 9957 1

原创关于Scrapy中的Pipeline管道中存储mysql后是否处理后返回 item 的问题，个人理解

关于这个问题，我的理解是，假如你需要清洗数据后，在往下值才返回。只是储存的操作就没必要具体代码结构如下：class XiangmuPipeline(object): def process_item(self, item, spider): self.cursor.execute("""insert into t_company_building( company_base_id, building_id,title, publishdate, province,

2021-11-12 11:11:04 1179

原创 Python 如何快速启动scrapy，怎么打断点调试scrapy代码，在pycharm中可视化了

如何在scrapy中简单调试自己的代码，在pycharm中可视化了详细见图这上面就加了一个文件# -*- coding:utf-8 -*-from scrapy import cmdlinecmdline.execute(("scrapy crawl zhengfu").split())就这么简单，就只需要在这个文件加个 cmdline 这个包，就等同于在黑窗口上面写的 scrapy crawl zhengfu 。...

2021-11-11 17:14:37 1280

原创关于Scrapy图片批量下载的用法及详细代码详解，scrapy图片重命名、放入不同文件夹。

好了，接下来开始！一、创建项目scrapy startproject ImagesRename# 下面写的创建爬虫的自己写一个 ,自己写自己的需求，我这里随便写一下。cd ImagesRenamescrapy genspider baidu baidu.com二、编写itemimport scrapyclass ImagesrenameItem(scrapy.Item): imgurl = scrapy.Field() imgname = scrapy.Field(

2021-11-11 17:01:51 1601

原创关于 mysql 爬虫自用数据库常用的一些操作

查询与主表关联不上的数据select * from a where ID not in ( select c.ID from demo c );查询重复数据select count(*) from t_company_branch where ID in (select ID FROM (select min(b.ID) ID, count(1)from t_company_branch b group by b.COMPANY_BASE_ID,b.BRANCH_OFFICE_NA

2021-07-31 10:36:15 112

原创 python scrapy框架关于redis 大量数据批量导入的问题

关于查询数据库后，直接批量导入redis做缓存的问题具体步骤看详情代码：class MohurdRedis(object):# 打开数据库def __init__(self): self.db_conn = redis.StrictRedis(host='localhost', port=6379, db=12) self.conn = pymysql.connect(user=MYSQL_CONFIG['user'], passwd=MYSQL_CONFIG['passwd'],

2021-07-28 16:14:42 288

原创关于 scrapy 中 COOKIES_ENABLED 设置理解问题，看这里就够了

看了很多的文章，感觉写的都有点扯淡，误人子弟。源码中：默认是注释掉的，但是上面的备注写的是开启状态（没关系，不管）。所以这个就有了三个状态：1. 第一个源码的注释状态：# Disable cookies (enabled by default)# COOKIES_ENABLED = False这个状态下，其实可以理解成 cookie 是开启的状态，但是他的获取值是通过源码的方法，直接获取到上层的cookie ，然后带到下一层去的。2. ...

2020-07-18 11:20:22 1707 2

原创 python scrapy 数据库里面的 mysql 同步、异步写入

同步写入：import pymysqlfrom .items import Itemclass CheshiPipeline: def __init__(self): self.conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='mysql_db', charset='utf8') # 连接mysq

2020-06-30 15:30:23 356

原创 python 实现请求网址保存图片，并返回指定尺寸的图片大小

请求下载图片逻辑，并按尺寸保存def get_img(self, url, category_num): # 取到图片，并保存。 res_title = url.split("/")[-1] path_ = '/img/crawl/' + str(category_num) + "/" if not os.path.exists(path_): os.makedirs(path_) # 创建一个文件，用来存储图片 try: .

2020-06-30 15:01:29 848

原创 python 运用代码实现 mysql 查询数据快速导入进 redis 数据库

mysql 查询数据快速导入进 redis 数据库class RedisDB(object): # 打开数据库 def __init__(self): self.db_conn = redis.StrictRedis(host='localhost', port=6379, db=4) self.mysql_db = DataBase() # 插入数据库数据 def insert_db(self): demo =

2020-06-30 14:45:22 280

weixin_44532999的博客