16行 python代码获取音效素材

本文通过16行Python代码演示如何获取网络上的音效素材。主要涉及requests和re模块,通过分析网页源码,抓取音频链接并下载。在Pycharm环境下,利用headers伪装请求,正则表达式匹配MP3文件地址和标题,最终实现音频文件的下载。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

人生苦短,我用python

声音素材资源:

在这里插入图片描述

源码资料电子书:点击此处跳转文末名片获取

在这里插入图片描述


所需环境

在这里插入图片描述

开发环境

  • Python 环境
  • Pycharm 编辑器

模块

  • requests
  • re

流程讲解

首先我们打开网址后右键选择检查

在这里插入图片描述
选择network ,
刷新页面往下滑,
会出现一个 page-4 和 page-5 的页面。

在这里插入图片描述

这两个页面很多数据是直接在这里有的,
我们随便找一个点击播放,
然后点击media ,
在headers里面会有一个音频文件,
就是我标注的下载地址。

在这里插入图片描述

可以直接播放也可以直接下载

在这里插入图片描述
那想获得这个这个地址怎么做呢?

我们直接复制这串数字,
比如32716 ,
然后点击左上角的这个搜索框,
搜索一下。

在这里插入图片描述
搜索之后我们可以看到page-5这里就有音频的声音链接地址。

在这里插入图片描述
音频标题也在这里可以找到

在这里插入图片描述

然后我们点击headers,直接对于这个url地址发送请求。

在这里插入图片描述

首先导入requests模块

import requests

url就是刚刚的链接

url = 'https://手动替换一下/search/word-/page-5'

然后我们加一个headers进行伪装

这里直接复制 headers 下面的 user-agent 里面的内容就好了

在这里插入图片描述

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}

然后发送请求,打印一下看看结果

response = requests.get(url=url, headers=headers)
print(response.text)

打印出来的内容太多了,
我们直接在上面搜索MP3,
精准定位,
它的标题就在mp3文件下面那个链接那里。

在这里插入图片描述
然后我们把它复制过来,
用正则去匹配中间这段内容,
中间的url用(.*?)代替。

在这里插入图片描述


首先导入re模块

import re

刚刚那段内容复制过来,.*?用括号括起来。

response.text里面去匹配,匹配到的内容用play_url_list这个变量接收。

play_url_list = re.findall('<div class="ui360 ui360-vis"><a href="(.*?)"></a></div>', response.text)

然后打印一下看看有没有匹配到内容

print(play_url_list)

可以看到直接匹配到了mp3文件,
它包含在一个列表里面。

在这里插入图片描述
那我们还需要它的标题名字,同样的复制过来。

在这里插入图片描述
还是一样的操作,url和名字都替换为 .*?

response.text 里面去匹配,匹配到的内容用name_list这个变量接收。

for play_url, name in zip(play_url_list, name_list):
    mp3_content = requests.get(url=play_url, headers=headers).content

然后直接保存,
with open 给它一个文件夹的名字,
加上名字,
加上 .mp3的后缀,
保存方式 mode = wb ,
f.write 这个变量接收一下 mp3_content

    with open('音效\\' + name + '.mp3', mode='wb') as f:
        f.write(mp3_content)

这里咱们没有写自动创建文件夹,
所以需要手动创建一下文件夹,
然后把你命名的名字写入进来

在这里插入图片描述
我们打印一下看结果

print(name)

在这里插入图片描述
相关的数据内容就保存在你创建的文件夹了

在这里插入图片描述

注:所有的url大家自己手动替换一下,我这里把它们删了,不然会审核不过

import requests
import re
url = 'https://这里大家自己替换一下/search/word-/page-5'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
response = requests.get(url=url, headers=headers)

play_url_list = re.findall('<div class="ui360 ui360-vis"><a href="(.*?)"></a></div>', response.text)
name_list = re.findall('<a class="h6 text-white font-weight-bold" target="_blank" href=".*?" title="(.*?)">.*?</a>', response.text)
print(play_url_list)
print(name_list)
for play_url, name in zip(play_url_list, name_list):
    mp3_content = requests.get(url=play_url, headers=headers).content
    with open('音效\\' + name + '.mp3', mode='wb') as f:
        f.write(mp3_content)
        print(name)

👇问题解答 · 源码获取 · 技术交流 · 抱团学习请联系👇

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值