首先需要声明,本篇文章不涉及对vip资源的爬取
目录
必备工具:PyCharm,Microsoft edge浏览器(其他浏览器咱也没试过)
下载 JetBrains 提供的 PyCharm:用于数据科学和 Web 开发的 Python IDE
简单原理说明
如图,不难发现,资源由服务器发出。但在我们与资源之间,隔着浏览器这个“中间商”,我们的任务很简单:为了防止中间商赚差价,我们要在服务器响应用户请求,将资源传到浏览器这一步时,直接把资源截获(资源:吃着火锅唱着歌,突然就被截了)
基本代码
# 给出真实地址(填入""内)
url = ""
# 加载网络模块
import requests
# .get请求语法,请求真实地址的值
b = requests.get(url)
# 将请求的值转为二进制数据
c = b.content
# 用'wb'创建一个文件(注意后缀名格式应当符合所爬取资源的格式)
# 如图片用.png,音频用.mp3等
d = open('' ,'wb')
# .write将数据写入
d.write(c)
给出这段代码之后,很显然这就变成了填空题(但是我不想,因为这样我就没啥写的了)
由此可见,我们需要干两件事:(1)获取资源的真实地址。 (2)安装网络模块。
具体实现
网络模块的安装
在PyCharm中,按下Alt+F12键,出现上图界面,输入指令pip install requests进行网络模块的安装,耐心等待安装完成,完成后如下图:
第一步完成。
真实地址的获取
这里以爬取酷狗音乐中的歌曲为例:
(1)进入Microsoft edge浏览器,搜索酷狗音乐并进入其页面
(2)随意播放一首歌,进入歌曲页面后,右键单击页面,点击检查,打开开发者工具:
(3)点击网络,显然音频属于媒体内容,因此,咱们随后点击媒体:
(4)播放这首歌,可以看到多出了文件,单击该文件:
(5)复制其请求URL,即所谓真实地址,如果直接通过浏览器访问该地址,可以看到是歌曲的播放页:
爬取实现
(1)进入PyCharm,写好代码并把空填上(文件取名时保证后缀名正确即可,音频为.mp3)然后运行代码。
# 给出真实地址(填入""内)
url = "https://webfs.hw.kugou.com/202403112024/7494ad502088b8aab570d7a84e770083/KGTX/CLTX001/24518498c5d8fe15452b7d23532b0389.mp3"
# 加载网络模块
import requests
# .get请求语法,请求真实地址的值
b = requests.get(url)
# 将请求的值转为二进制数据
c = b.content
# 用'wb'创建一个文件(注意后缀名格式应当符合所爬取资源的格式)
# 如图片用.png,音频用.mp3等
d = open('123.mp3' ,'wb')
# .write将数据写入
d.write(c)
(2)运行成功后,检查文件,点击后可以听,宣告成功。
如此便实现了对单个资源的爬取。
新手创作,水平有限,如有错误,还请指出!