- 博客(31)
- 收藏
- 关注
原创 python抓取 好看视频通过关键字搜索后,详细地址里面的视频video提取下载
下面的这个就是一些分析过程的东西, 直接给效果吧。也是在网上找到的解决方案。
2025-03-14 11:19:24
186
原创 小红书 详细评论接口,x-s 补环境。直接上补完环境后的代码,获取详细评论 及 翻页
一般传入的是 url = ‘https://www.xiaohongshu.com/explore/6730a9f4000000003c0195d3?详细评论里面有个翻页的操作, 是里面的 cursor 参数 来实现翻页的。具体的分析过程, 其他的大佬都讲的 很清晰了, 怎么找到的 怎么分析的 去看看。好了, 大概的东西 就是这样子了。多的不说 少的不唠。需要注意的是 url 的处理。因为我代码里面是封装的项目,就不上传了。翻页的 大致代码 是这样子的。获取到 详细评论的数据了。
2024-11-13 11:40:36
1386
1
原创 解决 首次pyppeteer使用报错,下载Chromium浏览器失败,查了很多都不能解决 OSError: Chromium downloadable not found at
自己安装了以后, 我打算来调用是一下结果就报错了,问题说在 await launch() 位置有问题, 问了 GPT 说,下载的东西没找到,也打开这个链接了 确实没有这是报错信息,按照这个信息 找了半天但是没有结果。网上也看了很多帖子,但是给出的地址都不能访问,没有头绪。不过我回过来想到, 我是有运行成功的环境的,我突然想到是不是版本的问题:,我对比了下 我运行正常的版本好好好,版本确实有点差异,安装回旧版本试试然后运行代码 不报错了,正常返回。
2024-04-26 17:45:29
3295
8
原创 记录一下,adb调试工具与夜神模拟器版本号不匹配问题解析及解决方案
报错这个错误通常是因为你的ADB客户端版本与ADB服务器版本不匹配导致的。你可以尝试更新ADB到与服务器版本匹配的版本。首先在 cmd 下面 看自己的adb是什么版本然后 cmd打开以后 再进去自己的夜神模拟器下面的路径(每个人加压安装的位置不一样,记得换自己的哈)执行这就看到了,两个的adb版本是不一样的。
2024-04-19 14:52:55
610
原创 【爬虫反爬应对思路】爬虫反爬的一些基础情况及应对思路
猫眼的 评分信息,页面跟抓包展示不一致,会展示出特别字符在无痕模式准备抓包,打开网址,可以找到它的数字就像一段乱码,这就是它自定义的字体:处理方法:我们可以将数字和自定义字体对应起来,比如7对应的就是。
2024-04-12 09:40:45
1191
原创 网页返回title“Just a moment...“,python 绕过tls指纹的几种方式 记录一下
第一种: 使用 tls_client 第三方库进行绕过。
2024-03-28 09:23:34
3129
1
原创 解决pip install速度慢、网络速度较慢总是卡死的办法
在使用Python时,我们经常需要用到pip安装第三方包。但是,在某些情况下,由于网络速度慢或者其他各种原因,pip install会非常慢,甚至可能无法完成。为了解决这个问题,尝试提供以下几种方法。
2023-09-20 10:55:59
10439
5
原创 python 定时启动装置BlockingScheduler(如何启动及如何设置参数) 、APScheduler(Python化的Cron)使用总结
APScheduler全程为Advanced Python Scheduler,是一款轻量级的Python任务调度框架。它允许你像Cron那样安排定期执行的任务,并且支持Python函数或任意可调用的对象。官方文档:https://apscheduler.readthedocs.io/en/latest/userguide.html#basic-concepts。
2023-03-15 14:56:06
6163
原创 python http请求中post请求参数显示是 Request Payload 是一个列表
因为不是json数据,是text的, 直接放在body里面 就可以了。这种分几种情况, 一种为 : json , 一种为:text。直接写成data就可以了 , 用字段串 包起来;今天碰到这个情况,还是记录下。
2023-03-02 17:52:38
544
原创 Scrapy 如何正确发送 POST请求 获取到响应数据的三种写法
但如果你看过 Scrapy 的官方文档(https://doc.scrapy.org/en/latest/topics/request-response.html#jsonrequest),你就会知道,实际上 Scrapy 原本就提供了一个专门用来POST 提交 JSON 数据的方式——JsonRequest。它的位置在scrapy.http.JsonRequest。第二种回答,会建议你使用scrapy.Request(url, method=‘POST’, body=json.dumps(xxx))。
2023-02-28 15:55:55
1544
原创 关于python爬虫爬取网站时,数据返回中有 <![CDATA[ 字样的数据,xpath取不到值,解析问题及问题解决方案
XML CDATA ,XML 文档中的所有文本均会被解析器解析。只有CDATA 区段中的文本会被解析器忽略。
2023-02-10 17:08:27
2274
2
原创 解决scrapy需要批量启动多个脚本的问题,scrapy 批量运行脚本方式
今天遇到在远程服务器上,os 批量启动时存在启动不了的情况,使用scrapy自带的方式批量启动项目脚本
2023-01-28 17:06:53
383
原创 python关于 post 网站http请求中 存在form data 参数带有 params字样数据,解决数据返回响应
python 在这个请求的时候, 下意识的 就是关键字参数,但是调试没有成功的。数据抓包是可以正常抓到的,但是在调试这个请求的时候 花了点时间;
2023-01-18 10:05:26
836
原创 xpath 晋级玩法,使用小技巧。python 爬虫必知必会骚操作。xpath 高级用法 深入浅出实用点汇集
爬虫 取值模块 xpath 深入浅出 小技巧。 装逼五分钟,挨打两小时的那种
2022-12-16 15:34:58
625
原创 解决 远程 服务器--Microsoft Windows CredSSP 远程执行代码漏洞(CVE-2018-0886)【原理扫描】(KB4103725 或 KB4103715)
Windows 2012 R2 修复CredSSP 远程执行代码漏洞 CVE-2018-0886
2022-09-02 09:21:18
9957
1
原创 关于Scrapy中的Pipeline管道中 存储mysql后是否处理后返回 item 的问题,个人理解
关于这个问题,我的理解是,假如你需要清洗数据后,在往下值才返回。只是储存的操作就没必要具体代码结构如下:class XiangmuPipeline(object): def process_item(self, item, spider): self.cursor.execute("""insert into t_company_building( company_base_id, building_id,title, publishdate, province,
2021-11-12 11:11:04
1179
原创 Python 如何快速启动scrapy,怎么打断点调试scrapy代码,在pycharm中可视化了
如何在scrapy中简单调试自己的代码,在pycharm中可视化了详细见图这上面就加了一个文件# -*- coding:utf-8 -*-from scrapy import cmdlinecmdline.execute(("scrapy crawl zhengfu").split())就这么简单, 就只需要在这个文件 加个 cmdline 这个包,就等同于在黑窗口上面写的 scrapy crawl zhengfu 。...
2021-11-11 17:14:37
1280
原创 关于Scrapy图片批量下载的用法及详细代码详解,scrapy图片重命名、放入不同文件夹。
好了,接下来开始!一、创建项目scrapy startproject ImagesRename# 下面写的创建爬虫的 自己写一个 ,自己写自己的需求, 我这里随便写一下。cd ImagesRenamescrapy genspider baidu baidu.com二、编写itemimport scrapyclass ImagesrenameItem(scrapy.Item): imgurl = scrapy.Field() imgname = scrapy.Field(
2021-11-11 17:01:51
1601
原创 关于 mysql 爬虫自用 数据库常用的一些操作
查询与主表关联不上的数据select * from a where ID not in ( select c.ID from demo c );查询重复数据select count(*) from t_company_branch where ID in (select ID FROM (select min(b.ID) ID, count(1)from t_company_branch b group by b.COMPANY_BASE_ID,b.BRANCH_OFFICE_NA
2021-07-31 10:36:15
112
原创 python scrapy框架关于redis 大量数据 批量导入的问题
关于查询数据库后,直接批量导入redis做缓存的问题具体步骤看详情代码:class MohurdRedis(object):# 打开数据库def __init__(self): self.db_conn = redis.StrictRedis(host='localhost', port=6379, db=12) self.conn = pymysql.connect(user=MYSQL_CONFIG['user'], passwd=MYSQL_CONFIG['passwd'],
2021-07-28 16:14:42
288
原创 关于 scrapy 中 COOKIES_ENABLED 设置 理解问题,看这里就够了
看了很多的文章, 感觉写的都有点扯淡 ,误人子弟 。源码中 : 默认是注释掉的,但是上面的备注写的是开启状态(没关系, 不管)。所以这个 就有了三个状态:1. 第一个 源码的 注释状态:# Disable cookies (enabled by default)# COOKIES_ENABLED = False这个状态下, 其实可以理解成 cookie 是开启的状态, 但是他的获取值 是通过源码的方法,直接获取到上层的cookie ,然后带到下一层去的。2. ...
2020-07-18 11:20:22
1707
2
原创 python scrapy 数据库里面的 mysql 同步 、异步写入
同步写入:import pymysqlfrom .items import Itemclass CheshiPipeline: def __init__(self): self.conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='mysql_db', charset='utf8') # 连接mysq
2020-06-30 15:30:23
356
原创 python 实现 请求网址保存图片, 并返回指定尺寸的图片大小
请求下载图片逻辑, 并按尺寸保存def get_img(self, url, category_num): # 取到图片,并保存。 res_title = url.split("/")[-1] path_ = '/img/crawl/' + str(category_num) + "/" if not os.path.exists(path_): os.makedirs(path_) # 创建一个文件,用来存储图片 try: .
2020-06-30 15:01:29
848
原创 python 运用 代码 实现 mysql 查询数据 快速导入进 redis 数据库
mysql 查询数据 快速导入进 redis 数据库class RedisDB(object): # 打开数据库 def __init__(self): self.db_conn = redis.StrictRedis(host='localhost', port=6379, db=4) self.mysql_db = DataBase() # 插入数据库数据 def insert_db(self): demo =
2020-06-30 14:45:22
280
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人