因为最近有比赛快出入围决赛名单了,抑制不住内心的激动隔几分钟就刷新一下网页,干脆写了个爬虫每10秒访问一次,如果有更新直接发邮箱通知队友们
当然,在没告知队友的情况下这封邮件理所应当的被当成了钓鱼邮件,下面记录一下中间不太懂的过程
本文用了requests
HTTP库请求网站,beautifulsoup
解析网页,smtplib
提供SMTP邮件传输协议服务,email
库构造邮件,以及用了sched
时间调度器和time
库来控制一段延时执行函数
import requests
from bs4 import BeautifulSoup
import smtplib
from email.mime.text import MIMEText
from email.header import Header
import sched, time
main()
对于爬虫,先弄清页面结构,因为页面有个很显眼的最新公告,有活动通知才更新一次,官网正在举办的只有这一个比赛,可以肯定会在这里出现,分析这个盒子模型
<ul class="list-unstyled list-unstyled1" style="margin-bottom:0;">
<a href="http://xxxxxxxxxx"></a>
<li><span>[作品赛通知]</span>
<a href="http://xxxxxxxxxxx/view/156" title="2020年第十三届全国大学生信息安全竞赛-作品赛决赛团队名单" target="_blank">2020年第十三届全国大学生信息安全竞赛-...</a>
</li>
<li>...</li>