使用python简单实现对单个资源的爬取

首先需要声明,本篇文章不涉及对vip资源的爬取

目录

简单原理说明

基本代码

具体实现

网络模块的安装

真实地址的获取 

 爬取实现


必备工具:PyCharm,Microsoft edge浏览器(其他浏览器咱也没试过)

下载 JetBrains 提供的 PyCharm:用于数据科学和 Web 开发的 Python IDE

了解 Microsoft Edge

简单原理说明

 如图,不难发现,资源由服务器发出。但在我们与资源之间,隔着浏览器这个“中间商”,我们的任务很简单:为了防止中间商赚差价,我们要在服务器响应用户请求,将资源传到浏览器这一步时,直接把资源截获(资源:吃着火锅唱着歌,突然就被截了)

基本代码

# 给出真实地址(填入""内)
url = ""

# 加载网络模块
import requests

# .get请求语法,请求真实地址的值
b = requests.get(url)

# 将请求的值转为二进制数据
c = b.content

# 用'wb'创建一个文件(注意后缀名格式应当符合所爬取资源的格式)
# 如图片用.png,音频用.mp3等
d = open('' ,'wb')

# .write将数据写入
d.write(c)

给出这段代码之后,很显然这就变成了填空题(但是我不想,因为这样我就没啥写的了)

由此可见,我们需要干两件事:(1)获取资源的真实地址。 (2)安装网络模块。

具体实现

网络模块的安装

 在PyCharm中,按下Alt+F12键,出现上图界面,输入指令pip install requests进行网络模块的安装,耐心等待安装完成,完成后如下图:

第一步完成。

真实地址的获取 

这里以爬取酷狗音乐中的歌曲为例:

(1)进入Microsoft edge浏览器,搜索酷狗音乐并进入其页面

(2)随意播放一首歌,进入歌曲页面后,右键单击页面,点击检查,打开开发者工具:

(3)点击网络,显然音频属于媒体内容,因此,咱们随后点击媒体

(4)播放这首歌,可以看到多出了文件,单击该文件:

(5)复制其请求URL,即所谓真实地址,如果直接通过浏览器访问该地址,可以看到是歌曲的播放页:

 爬取实现

(1)进入PyCharm,写好代码并把空填上(文件取名时保证后缀名正确即可,音频为.mp3)然后运行代码。

# 给出真实地址(填入""内)
url = "https://webfs.hw.kugou.com/202403112024/7494ad502088b8aab570d7a84e770083/KGTX/CLTX001/24518498c5d8fe15452b7d23532b0389.mp3"

# 加载网络模块
import requests

# .get请求语法,请求真实地址的值
b = requests.get(url)

# 将请求的值转为二进制数据
c = b.content

# 用'wb'创建一个文件(注意后缀名格式应当符合所爬取资源的格式)
# 如图片用.png,音频用.mp3等
d = open('123.mp3' ,'wb')

# .write将数据写入
d.write(c)

(2)运行成功后,检查文件,点击后可以听,宣告成功。

 

如此便实现了对单个资源的爬取。

新手创作,水平有限,如有错误,还请指出!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

eternal*

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值