今天简单的用Python来采集一下某论坛的歌曲
环境使用
Python 3.10
Pycharm
模块使用
requests --> 发送请求 pip install requests
execjs --> pip install execjs
re 正则
源码和视频讲解都打包好了,文末名片自取
基本流程
一、数据来源分析
1.明确需求
明确采集的网站以及数据内容
- 网址: https://****/thread-192873.htm
- 数据: 歌曲内容(播放链接) / 歌曲标题
2.抓包分析
通过浏览器开发者工具分析对应的数据位置
本次抓包分析都是在浏览器中进行操作
- 打开开发者工具
- F12 / 右键点击检查选择network(网络)
- 刷新网页
- 让本网页的数据内容重新加载一遍
- 通过关键字搜索找到对应数据位置
- 关键字: 需要什么数据就搜什么
- 数据使用播放链接中一段参数即可
- 关键字: 需要什么数据就搜什么
需要歌曲播放链接 -> 开发者工具 -> 网络 -> 媒体
如何确定那个歌曲链接是我们需要的:
- 直接复制链接地址, 在新的浏览器窗口页面进行访问
- 两个链接都可以播放歌曲内容, 如何进行选择呢?
分析歌曲链接如何生成的 -> 请求那个数据包地址, 能够得到这个歌曲链接
(通过关键字搜索)
简单总结
1.通过开发者