网站地址:https://lishi.tianqi.com/changsha/202406.html
爬取网站数据代码
import csv #写入csV文件
import requests #模拟浏览器进行网络请求
from lxml import etree #进行数据预处理
def get_weather(url):
weather_info=[] #新建一个列表,将爬取的每月数据放进去
#请求头信息:浏览器版本型号,接收数据的编码格式
headers={
#必填,不填拿不到数据
'User-Agent':'Mozilla/5.0 (Windows NT 6.1:WOW64)'
}
# 请求
resp =requests.get(url,headers=headers)
#数据预处理
resp_html = etree.HTML(resp.text)
# xpath提取所有数据
resp_list = resp_html.xpath("//ul[@class='thrui']/li")
# for循环迭代遍历
for li in resp_list:
# 定义每天的天气数据字典
day_weather_info = {
# 获取日期,格式为2023-01-01
'date_time':li.xpath("./div[1]/text()")[0].split(' ')[0],