英语早餐正则匹配批量下载

本文介绍了如何利用正则表达式在Python中批量下载广播节目MP4文件。通过查找分页中的日期并构造下载链接,实现智能下载。为了减轻服务器压力,建议下载一部分后暂停。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

仅供学习,下载最好下载一部分后,停止一会,防止增加广播服务器的负担。
找到广播网节目的播放页,F12,刷新,可以看到最大文件就是音频下载地址。

在这里插入图片描述

双击可以看到真实的下载地址到最后.mp4,网站提供的格式为MP4。每期节目下载地址只是变换日期部分,其它保持不变。
在这里插入图片描述
用正则搜索出分页中的节目表日期,提取每期节目的日期。拼成下载地址,批量下载。
在这里插入图片描述
因为不同时期一段时间内的下载地址有所变化,分割开日期对应的下载地址:

import time
import re
import requests
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
def parse_page(url):
	response = requests.get(url,headers=headers)
	text = response.text
	time.sleep(3)
	date = re.findall(r'<a.*?English Breakfast.*?(\d+?)</a>',text) #找出某一分页中所有节日的日期
	return date #返回节目日期列表
def main():
	pagenums = ['n'] #第一分页与其它不同,单独作为第一个元素
	endpage = int(input('how many pages ?'))  #输入共有多少页音频节目
	for i in range(2,endpage+1):
		otherpage = 'n_%d' % i #其它分页的格式
		pagenums.append(otherpage)
	for pagenum in pagenums:
		url = 'http://www.rbc.cn/audio/yingyuzaoca' + pagenum + '.shtml?parent=2972&node=3165' #拼成所有分页的URL
		adates = parse_page(url) #返回节目日期列表
		# print(adates)
		for i in adates:
			if int(i) >= 20180101 :
				audiourl = 'http://playback.rbc.cn/audioD/am774/'+str(i)+'/0600001800_mp4/060000_1800_96K.mp4' #拼成所每期节目的下载地址
			elif int(i) >= 20170520 :
				audiourl = 'http://playback.rbc.cn/audioD/am774/'+str(i)+'/0600001795_mp4/060000_1795_96K.mp4'
			elif int(i) >= 20170119 :
				audiourl = 'http://playback.rbc.cn/audioG/am774/'+str(i)+'/0600001795_mp4/060000_1795_96K.mp4'
			elif int(i) <= 20170118 :
				audiourl = 'http://playback.rbc.cn/audioG/am774/'+str(i)+'/0600001800_mp4/060000_1800_96K.mp4'
			print('正在下载'+i)
			time.sleep(5)#休息5s
			resp = requests.get(audiourl, headers=headers).content
			with open (i+".mp3","wb") as f: #将mp4格式替换成mp3,省去批量改后缀。
				f.write(resp)
				print(i + "下载完成")
if __name__ == '__main__':
	main()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值