请注意本文采用的可视化工具为:pyecharts 0.1.9.4
爬取全国367个城市2019年春节期间的空气质量指数数据(六万条数据全面解析,城市春节禁放烟花爆竹真的有用吗?)
首先是数据获取,贴出爬虫demo,如果有需要数据的请评论
# -*- coding:utf-8 -*-
import time
import requests
import pandas as pd
from lxml import etree
class AQI(object):
"""
爬取城市AQI实时数据
"""
def __init__(self):
"""
初始化函数
:attr encoding: 编码
"""
self.encoding = None
def get_encoding(self):
"""
获取网页的编码
:return: None
"""
res = requests.get('http://datacenter.mee.gov.cn/aqiweb2/')
self.encoding = res.apparent_encoding
print('Successfully crawled encoding!')
time.sleep(2)
def crawl_aqi(self, sleep_time=3600):
"""
爬取全国具有监测点的所有城市的AQI实时数据,每小时爬取一次
:param sleep_time: 爬取间隔时间,默认3600秒
:return: None
"""
write_header = True
while 1:
res = requests.get('http://datacenter.mee.gov.cn/aqiweb2/')
parsed_text = etree.HTML(res.text)
timestamp = parsed_text.xpath('/html/body/div[3]/p/i/text()')[0].replace('年', '-'). \
replace('月', '-').replace('日'