简介
考研结束后,因为要关注官网发布的录取通知,每天都要去官网看好几遍。于是便做一个网络爬虫来自动处理事件,可以判断当天是否有最新的消息发布,如果有就发送到个人邮箱。
该爬虫主要涉及的部分有:
- 网页请求
- 网页解析
- 时间判断
- 邮件发送
网页请求
网页请求使用的是常规的requests库
def get_response(self, url):
print(url)
response = requests.get(url)
data = response.content
return data
页面解析
首先看一下所要爬取的页面的结构:
首次所要爬取的目标便是官网通知的标题信息,可以通过 id='content’下的a标签来进行定位,这一部分的解析如下:
def parse_data(self,data):
soup = BeautifulSoup(data, 'html.parser', from_encoding='gb18030')
all = soup.find(id="co