https://www.aqistudy.cn/

爬取指定城市在指定时间范围内的空气质量数据,并将数据保存为CSV文件。它首先从两个文本文件中读取城市信息和代理IP信息,然后提示用户输入爬取的起始年份、结束年份、起始月份和结束月份。接下来,它启动了Chrome浏览器的调试服务,并创建了一个Chrome驱动,用于自动化地访问指定的网页。之后,它定义了一个函数crawl_aqi_data(),用于爬取指定城市、指定年份和月份的空气质量数据,并将数据保存到本地文件。最后,它循环遍历所有城市和时间段,调用crawl_aqi_data()函数来完成数据爬取任务,完成后关闭浏览器,并输出"数据爬取完成。"
import os
import time
import subprocess
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from fake_useragent import UserAgent
import random
# 读取城市信息
with open("city.txt", "r", encoding="utf-8") as file:
cities = [line.strip() for line in file if line.strip()]
ips =[]
with open('ip.txt', 'r') as f:
for line in f:
ip = line.strip()
ips.append(ip.strip())
# 输入爬取的起始年份、结束年份、起始月份和结束月份
start_year = int(input("请输入起始年份: "))
end_year = int(input("请输入结束年份: "))
start_month = int(input("请输入起始月份: "))
end_month = int(input("请输入结束月份: "))
# 启动Chrome浏览器调试服务
subprocess.Popen('cmd'

最低0.47元/天 解锁文章
886

被折叠的 条评论
为什么被折叠?



