Python爬虫--喜马拉雅音频爬取

最新推荐文章于 2025-04-26 14:26:32 发布

原创最新推荐文章于 2025-04-26 14:26:32 发布 · 5k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

Python 专栏收录该内容

11 篇文章

订阅专栏

本文介绍了一种使用Python爬取喜马拉雅网站上特定音频的方法。通过获取所需音频的ID，构造请求URL并利用正则表达式解析出音频的真实播放路径，进而实现音频文件的下载。文中详细展示了爬虫的实现代码。

部署运行你感兴趣的模型镜像

爬取喜马拉雅三国中的前十章音频：

#导入requests模块
import requests    
#导入正则表达式 
import re   
#解决反爬问题，导入UA
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:57.0) Gecko/20100101 Firefox/57.0'}     
#网页源代码中获取的前十章ID
sound_ids = (64686514,64689648,64695831,64695832,3218935,3822581,3419626,3513844,3593277,3773655)       
for s in range(0,10):
    for i in sound_ids:
        # 每个音频的URL
        url = 'http://www.ximalaya.com/tracks/'+str(sound_ids[s])+'.json'   
        #网页源代码
        html = requests.get(url,headers=header)    
        #打印网页源代码 
        # print(html.text)    
 
    def get_find_url():
        #正则匹配ID和对应的URL
        reg = '"id":(.*?),"play_path_64":"(.*?)"'
        #最终的音频URL数列
        sound_url = re.findall(reg,html.text)
        #打印音频URL数列
        # print(sound_url)
        return sound_url

    #ID和音频URL单独取出来
    for id,url_finall in get_find_url():
        #打印最终音频URL
        #print('第',s+1,'节:',url1)
        #获取音频详细内容
        m4a = requests.get(url_finall)
        #取音频最后4位数，即就是.m4a作为后缀名
        m4a_name = url_finall[-4:]
        print('<正在下载第',s+1,'节> ',url_finall)
        #音频内容存储到本地
        with open('第'+str(s+1)+'节'+m4a_name,'wb') as f:
            f.write(m4a.content)