python-检查网站更新

本文介绍了一个简单的Python脚本,用于监测中国银行业协会网站的协会要闻栏目是否更新了新的内容。通过读取网页并解析HTML代码来提取最新的更新时间和标题。如果检测到更新,则会将新的更新记录写入本地文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

以中国银行业协会的协会要闻为例:http://www.china-cba.net/list.php?fid=42

from urllib.request import urlopen
import re
import codecs
import os
web='http://www.china-cba.net/list.php?fid=42.html'
# 读取网页
try:
    file=urlopen(web).read().decode('utf-8')
    print('---编码方式:utf-8---')
except:
    file=urlopen(web).read().decode('gbk')
    print('---编码方式:gbk---')
# 利用正则表达式寻找最新更新时间和标题
start=re.search('<tr>',file).start()
end=re.search('</tr>',file).end()
match=file[start:end]
updatedate=re.search('\(.+\)',match).group()
updatecontent=re.search('[\w\u4e00-\u9fa5]+</a>',match).group()
im=[updatedate,'\n',updatecontent]
# 导出记录
if os.path.exists('银行业协会_协会要闻更新记录'):
    with codecs.open('银行业协会_协会要闻更新记录','r','utf-8') as f:
        input=f.readline()
        if input==updatedate:
            print('没有更新')
        else:
            print('有更新')
            with codecs.open('银行业协会_协会要闻更新记录', 'w', 'utf-8') as f:
                for s in im:
                    f.write(s)
            f.close()
else :
    print('有更新')
    with codecs.open('银行业协会_协会要闻更新记录', 'w', 'utf-8') as f:
        for s in im:
            f.write(s)
    f.close()
PS:关于监测网站更新有专门的模块urlwatch(安装:pip3 install urlwatch),另外网页插件Distill Web Monitor也可以用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值