使用pyspider进行数据采集与可视化实践-优快云博客

本文链接：https://blog.youkuaiyun.com/surijing/article/details/104657256

本文介绍了如何使用pyspider爬取空气质量指数网站上的数据，包括安装pyspider、配置PhantomJS、创建爬虫项目、编写代码提取数据，以及数据的初步可视化。在过程中，特别提到了Python版本问题和数据提取表达式的设置方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

通过编写爬虫程序，实现对空气质量指数网站上指定地区和时间段内的AQI进行获取，并实现数据可视化
实验步骤：

安装pyspider
在anaconda prompt中使用命令行安装：
若提示升级，则根据提示进行
下载PhantomJS,并配置环境变量
可在如下网址中进行下载
https://phantomjs.org/download.html

5.用命令行启动pyspider
如果出现下图命令，则启动成功
如果，python的版本3.7以上，建议降级，因为会有语言冲突
在命令行输入如下命令：
pip uninstall WsgiDAV==2.4.1
启动成功后可以通过默认地址：http://localhost:5000/进入spider web界面
并点击create new project 可以新建爬虫job

图中的地址便是我要爬取的地址，填写完信息之后点击create
进入怕成项目编写界面：

左边是代码调试界面，右边是代码运行结果，点击run 即可运行，每次修改代码之后需要保存（save）
数据采集
选取要爬取的url

点击右侧的三角按钮

由于url是我们需要的，所以需要修改url获取表达式
点击enable css selector helper，然后点击想要获取的数据，即可生成响应的数据提取表达式：

点击箭头，可以将生成的表达式插入到光标所在的地方，及’div>li>a‘

在这里插入图片描述

fetch_type='js',js_script="""function() {setTimeout("$('.more').click()", 2000);
  }"""# 等待浏览器加载数据

保存后，再次
在pyspider中生成的代码里Handler类中新建方法：

@config(age=10 * 24 * 60 * 60)
    def index1_page(self, response):
        for each in response.doc

数据采集及可视化实现