以证监会网站(http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201702/t20170210_310576.htm)《首次公开发行股票正常审核状态企业基本信息情况表》为例。
from urllib.request import urlretrieve
from urllib.request import urlopen
import re
web='http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201702/t20170210_310576.htm'
# 读取网页
file = urlopen(web).read().decode('utf-8')
# 根据正则表达式找到下载网址
match=re.findall('\<a[^\u4e00-\u9fa5]+发行监管部首次公开发行股票正常审核状态企业基本信息情况表.+a\> ',file)
str_date=re.findall('截至.+日',match[0])
str_web=re.findall('\/[^\u4e00-\u9fa5]+xls',match[0])
download='http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201702/'+str_web[0]
# 下载文件
urlretrieve(download,'['+str_date[0]+ \
']'+'IPO正常审核状态企业基本信息情况表.xls')