python爬取aqistudy网站数据

Python应对AQISTUDY网站反扒策略

最新推荐文章于 2024-06-05 21:37:58 发布

原创

最新推荐文章于 2024-06-05 21:37:58 发布 · 3.2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#selenium #python

本文档记录了20200729的更新，指出AQISTUDY网站针对selenium爬虫采取了反扒措施，导致原先的Python爬虫程序无法正常获取数据。

# /home/share/user/liaoqi/anaconda3/bin/python3.6

# Project: Local

# Author: ljh

# Create time: 2019-05-09 18:08

import time
from selenium import webdriver
import pandas as pd
from concurrent.futures import ProcessPoolExecutor
import urllib.request as request

import os


# 对中文城市名进行转义
def transport_city_name(city_name):
    return request.quote(city_name)


#  生成一段时间内的日期
def get_year_months(start_year, start_month, end_year, end_month):
    start_year, start_month, end_year, end_month = [int(i) for i in [start_year, start_month, end_year, end_month]]
    year_months = []
    if start_year < end_year:
        for year in range(start_year, end_year + 1):
            if year == start_year:
                if start_month > 12 or start_month < 1:
                    raise ValueError
                else:
                    for month in range(start_month, 13