利用python的爬虫语言,来进行对天气网址的历史最高气温进行爬取。
由于自己技术并不高,所以采用的还是切片处理所抓取的文件。
PS:在对爬取时,为防止短时间内多次对对方服务器多次请求,而造成困扰,我会在每次爬取一个月的天气数据后,进行休息5秒。这也是尊重对方所提供的数据,不能恩将仇报,到最后还被封了IP不能访问。
from bs4 import BeautifulSoup
import requests
import re
import time
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.66'}
def pa(di,yearq,yearo):
fp=open('{}.txt'.format(di),'a',encoding='UTF-8')
for x in range(yearq,yearo+1):
for y in range