指定时间间隔爬取一次的延时爬虫

因为最近有比赛快出入围决赛名单了,抑制不住内心的激动隔几分钟就刷新一下网页,干脆写了个爬虫每10秒访问一次,如果有更新直接发邮箱通知队友们

在这里插入图片描述

当然,在没告知队友的情况下这封邮件理所应当的被当成了钓鱼邮件,下面记录一下中间不太懂的过程


本文用了requests HTTP库请求网站,beautifulsoup解析网页,smtplib提供SMTP邮件传输协议服务,email库构造邮件,以及用了sched时间调度器和time库来控制一段延时执行函数

import requests
from bs4 import BeautifulSoup
import smtplib
from email.mime.text import MIMEText
from email.header import Header
import sched, time
main()

对于爬虫,先弄清页面结构,因为页面有个很显眼的最新公告,有活动通知才更新一次,官网正在举办的只有这一个比赛,可以肯定会在这里出现,分析这个盒子模型

<ul class="list-unstyled list-unstyled1" style="margin-bottom:0;">
    <a href="http://xxxxxxxxxx"></a>
    <li><span>[作品赛通知]</span>
        <a href="http://xxxxxxxxxxx/view/156" title="2020年第十三届全国大学生信息安全竞赛-作品赛决赛团队名单" target="_blank">2020年第十三届全国大学生信息安全竞赛-...</a>
    </li>
    <li>...</li>
    
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值