Python对某音乐论坛进行简单的采集

今天简单的用Python来采集一下某论坛的歌曲

环境使用
Python 3.10
Pycharm

模块使用

requests --> 发送请求  pip install requests 
execjs --> pip install execjs
re     正则

源码和视频讲解都打包好了,文末名片自取

基本流程

一、数据来源分析

1.明确需求

明确采集的网站以及数据内容

  • 网址: https://****/thread-192873.htm
  • 数据: 歌曲内容(播放链接) / 歌曲标题
2.抓包分析

通过浏览器开发者工具分析对应的数据位置
本次抓包分析都是在浏览器中进行操作

  • 打开开发者工具
    • F12 / 右键点击检查选择network(网络)
  • 刷新网页
    • 让本网页的数据内容重新加载一遍
  • 通过关键字搜索找到对应数据位置
    • 关键字: 需要什么数据就搜什么
      • 数据使用播放链接中一段参数即可

需要歌曲播放链接 -> 开发者工具 -> 网络 -> 媒体

如何确定那个歌曲链接是我们需要的:

  • 直接复制链接地址, 在新的浏览器窗口页面进行访问
  • 两个链接都可以播放歌曲内容, 如何进行选择呢?
    分析歌曲链接如何生成的 -> 请求那个数据包地址, 能够得到这个歌曲链接
    (通过关键字搜索)

简单总结

1.通过开发者

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值