python爬取快手视频_【原创开源】快手爬虫,根据id批量爬取用户的所有图集和视频...

这是一个Python爬虫项目,用于根据快手用户ID爬取其所有无水印视频和图集。通过分析请求,模拟浏览器行为获取数据。支持自动转换数字ID为EID,具有错误处理和日志记录功能。代码已重构为面向对象,提供exe版本方便使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

更新日志

所有版本更新日志会记录在这里

v0.4.0(2020-03-23)

修复id转eid的一些bug

从该版本开始,爬取视频均为无水印

v0.3.0(2020-03-10)

修复一些因为用户昵称中存在windows下文件(夹)名非法字符导致os无法写入读取的bug

简单看了一点python面向对象,将核心功能提取为crawler类,降低耦合

基于crawler类,分出两个文件,一个用于直接在python环境下跑代码,另一个则用于打包好exe一键运行

提供exe版本

v0.2.0(2020-02-26)

增加对数字id自动查询转换为eid的支持

v0.1.1 (2020-02-25)

修复caption项文字保存为文件名的各种问题

增加对workType 'ksong'、'single'的支持

增加对于爬取过程中请求失败的解决方法

增加CHANGELOG.md

写在前面

代码功能如题,根据快手用户的id来爬取用户所有公开作品,包括图集和视频。

原理:其实就是利用基于chromium内核的浏览器自带的devtools对所有请求进行排查找出包含作品链接的请求,然后用代码模拟请求去获得数据,再根据url下载作品保存就行了,包括一些网站的自动注册登录、操作都可以模拟。这个其实应该算是写过爬虫的同学们都知道,我自己其实不怎么用过python,也没写过什么复杂的python项目,说的不对的还请多多包涵。如果有同学还是想让我讲一下怎么爬的,我考虑再做一期详细的,其实代码应该还是可以看得懂的2333

核心代码

废话不多说,上核心代码

def __crawl_user(self, uid):

if uid.isdigit():

uid = self.__switch_id(uid)

payload = {"operationName": "privateFeedsQuery",

"variables": {"principalId": uid, "pcursor": "", "count": 999},

"query": "query privateFeedsQuery($principalId: String, $pcursor: String, $count: Int) {\n  privateFeeds(principalId: $principalId, pcursor: $pcursor, count: $count) {\n    pcursor\n    list {\n      id\n      thumbnailUrl\n      poster\n      workType\n      type\n      useVideoPlayer\n      imgUrls\n      imgSizes\n      magicFace\n      musicName\n      caption\n      location\n      liked\n      onlyFollowerCanComment\n      relativeHeight\n      timestamp\n      width\n      height\n      counts {\n        displayView\n        displayLike\n        displayComment\n 

### 使用Airtest实现快手爬虫的方法 对于使用Airtest框架来开发针对快手平台的自动化测试脚本或爬取公开数据的情况,通常涉及模拟用户操作流程。这包括启动应用、滚动浏览页面以及点击特定元素等动作。 #### 启动快手应用程序并登录 为了开始编写Airtest脚本,首先需要确保设备已连接,并安装好所需的应用程序。接着可以通过`start_app()`函数启动目标APP: ```python from airtest.core.api import * # 连接安卓设备(需替换为实际设备ID) connect_device("Android:///<device_id>") # 启动快手应用 start_app('com.kuaishou.nebula') ``` #### 定位界面元素与交互 利用图像识别技术定位屏幕上的按钮或其他UI组件,进而执行触摸事件完成互动行为。例如自动点赞功能可这样实现: ```python # 寻找首页推荐视频区域内的第一个赞图标位置 pos = exists(Template(r"like_button.png")) if pos: touch(pos) else: print("未找到指定模板图片") ``` 此处假设存在一张名为`like_button.png`的截图文件作为匹配依据[^1]。 #### 实现多线程并发处理 考虑到效率问题,在某些场景下可能希望同时运行多个任务。这时就可以借助Python内置库中的Threading模块配合Airtest一起工作了: ```python import threading def like_videos(): while True: # 执行一系列查找点击的操作... for i in range(5): # 创建五个子线程 t = threading.Thread(target=like_videos, daemon=True) t.start() ``` 需要注意的是,由于涉及到频繁访问网络资源服务端接口调用等因素的影响,建议合理控制频率以免触发反作弊机制造成封号风险。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值