还在为想看的被删不能看发愁嘛 ?一招教你全部采集~

本文介绍了使用Python进行动态数据抓包和页面分析的方法,结合requests库发送带参数的请求及JSON数据解析。示例代码展示了如何下载动态页面中的视频,涉及动态数据抓包、递归调用、正则表达式处理等内容。通过视频标题和链接的打印,实现了视频的下载。整个过程在Python3.8和PyCharm2021.2环境下进行。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言:

嗨喽!大家好呀, 这里是魔王~

知识点:

  1. 动态数据抓包
  2. 动态页面分析
  3. requests携带参数发送请求
  4. json数据解析

开发环境:

  • python 3.8 更加新 稳定 运行代码
  • pycharm 2021.2 辅助敲代码
  • requests 第三方模块

代码

代码里一些东西被我删了好过审核,有需要得小伙伴可看评论或私聊我获取~

import requests     # 发送网络请求模块
import re

url = ''
# 伪装
headers = {
    # 控制data类型 json类型字符串
    'content-type': 'application/json',
    'Cookie': '',
    'Host': 'www.kuaishou.com',
    'Origin': '',
    'Referer': '',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36',
}

def get_page(pcursor):
    # 需要的数据得指定好
    # 递归, 自己调用自己 跳出递归
    data = {
        'operationName': "visionProfilePhotoList",
        'query': "",
        'variables': {'userId': "3xauthkq46ftgkg", 'pcursor': pcursor, 'page': "profile"}
    }
    if pcursor == None:
        print('全部下载完成')
        return 0
    # 1. 发送请求 访问网站
    response = requests.post(url=url, headers=headers, json=data)
    # 2. 获取数据 .json .text .content
    json_data = response.json()
    # 3. 解析数据 去除不想要的内容
    feeds = json_data['data']['visionProfilePhotoList']['feeds']
    # 下一页需要的参数
    pcursor = json_data['data']['visionProfilePhotoList']['pcursor']
    # print(pcursor)
    for feed in feeds:
        caption = feed['photo']['caption']    # 标题
        photoUrl = feed['photo']['photoUrl']   # 视频链接
        # \: 转义字符, 直接写\ 匹配不到 \
        # \\ 才能匹配到 \
        # 用css和xpath 是必须要你拿到的数据是一个网页源代码
        caption = re.sub('[\\/:*?"<>|\n\t]', '', caption)
        print(caption, photoUrl)
        # 4. 发送请求 访问网站 视频链接
        # 5. 获取数据 视频数据 拿到的是视频二进制数据
        video_data = requests.get(url=photoUrl).content
        # 6. 保存视频 通过二进制的方式保存
        with open(f'video/{caption}.mp4', mode='wb') as f:
            f.write(video_data)
        print(caption, '下载完成!')
    get_page(pcursor)

get_page('')

尾语

好了,我的这篇文章写到这里就结束啦!

有更多建议或问题可以评论区或私信我哦!一起加油努力叭(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值