仅供学习,下载最好下载一部分后,停止一会,防止增加广播服务器的负担。
找到广播网节目的播放页,F12,刷新,可以看到最大文件就是音频下载地址。

双击可以看到真实的下载地址到最后.mp4,网站提供的格式为MP4。每期节目下载地址只是变换日期部分,其它保持不变。

用正则搜索出分页中的节目表日期,提取每期节目的日期。拼成下载地址,批量下载。

因为不同时期一段时间内的下载地址有所变化,分割开日期对应的下载地址:
import time
import re
import requests
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
def parse_page(url):
response = requests.get(url,headers=headers)
text = response.text
time.sleep(3)
date = re.findall(r'<a.*?English Breakfast.*?(\d+?)</a>',text) #找出某一分页中所有节日的日期
return date #返回节目日期列表
def main():
pagenums = ['n'] #第一分页与其它不同,单独作为第一个元素
endpage = int(input('how many pages ?')) #输入共有多少页音频节目
for i in range(2,endpage+1):
otherpage = 'n_%d' % i #其它分页的格式
pagenums.append(otherpage)
for pagenum in pagenums:
url = 'http://www.rbc.cn/audio/yingyuzaoca' + pagenum + '.shtml?parent=2972&node=3165' #拼成所有分页的URL
adates = parse_page(url) #返回节目日期列表
# print(adates)
for i in adates:
if int(i) >= 20180101 :
audiourl = 'http://playback.rbc.cn/audioD/am774/'+str(i)+'/0600001800_mp4/060000_1800_96K.mp4' #拼成所每期节目的下载地址
elif int(i) >= 20170520 :
audiourl = 'http://playback.rbc.cn/audioD/am774/'+str(i)+'/0600001795_mp4/060000_1795_96K.mp4'
elif int(i) >= 20170119 :
audiourl = 'http://playback.rbc.cn/audioG/am774/'+str(i)+'/0600001795_mp4/060000_1795_96K.mp4'
elif int(i) <= 20170118 :
audiourl = 'http://playback.rbc.cn/audioG/am774/'+str(i)+'/0600001800_mp4/060000_1800_96K.mp4'
print('正在下载'+i)
time.sleep(5)#休息5s
resp = requests.get(audiourl, headers=headers).content
with open (i+".mp3","wb") as f: #将mp4格式替换成mp3,省去批量改后缀。
f.write(resp)
print(i + "下载完成")
if __name__ == '__main__':
main()
本文介绍了如何利用正则表达式在Python中批量下载广播节目MP4文件。通过查找分页中的日期并构造下载链接,实现智能下载。为了减轻服务器压力,建议下载一部分后暂停。
821

被折叠的 条评论
为什么被折叠?



