前言
大家早好、午好、晚好吖 ❤ ~欢迎光临本文章
俗话说的好:技能学了~就要用在自己喜欢得东西上!!
这我不得听个话~我喜欢小姐姐,跳舞的小姐姐
这不得用python把小姐姐舞采集下来~嘿嘿嘿
完整源码、素材皆可点击文章下方名片获取此处跳转
知识点:
-
采集基本流程
-
re正则表达式简单使用
-
requests
-
json数据解析方法
-
数据保存
采集网站:
开发环境:
-
Python 3.8
-
Pycharm
模块使用:
-
requests >>> pip install requests 第三方模块
-
re
安装模块:win + R 输入cmd 输入安装命令 pip install 模块名
如果出现爆红 可能是因为 网络连接超时 切换国内镜像源
基本流程(固定):
一. 数据来源分析
-
确定采集内容是什么? (目标网址, 网址里面数据)
-
通过开发者工具进行抓包分析, 分析我们想要数据 通过请求那个url地址可以获得
I. 通过分析可以知道 播放url地址是什么?
II. 通过播放地址, 去分析找寻, 数据包是在哪?
III. 通过两个数据包 请求参数对比, 可以知道 只要获取所有ID 就可以获取内容
(图片id MP4ID 音乐ID 还是什么ID 都可以去列表页面获取)
IV. 去分析 mp4ID可以从哪里获取 (一般情况都可以在列表页面获取)
我想要获取播放地址 >>> 要得到数据包 >>> 获取ID
二. 代码实现步骤 发送请求 获取数据 解析数据 保存数据
-
发送请求, 对于舞蹈列表页面发送请求
-
获取数据, 服务器返回数据内容
-
解析数据, 提取我们想要数据内容 ID
-
发送请求, 把ID传入到 数据包里面 发送请求
-
获取数据, 服务器返回数据内容
-
解析数据, 提取我们想要数据内容 标题 以及播放地址
-
保存数据, 把内容保存本地
-
多页数据采集
代码
导入模块
# 导入数据请求模块
import requests # 第三方模块 pip install requests 需要自行安装
# 导入re正则表达式
import re # 内置模块 不需要安装
# 导入格式化输出模块
import pprint # 内置模块 不需要安装
- 发送请求, 对于舞蹈视频列表页面发送请求
for page in range(1, 11)