Python爬虫基础教程（99）Pyspider实战：Youku影视排行之爬虫编写：爬虫新手进阶：手把手教你用Pyspider爬取Youku影视排行，秒变数据大神！-优快云博客

只需要一点点Python基础，就能让热门影视数据手到擒来。

作为一名Python爱好者，我一直对数据抓取很感兴趣。记得刚开始学爬虫时，我写的第一个脚本就尝试抓取Youku视频信息，结果整整花了两天时间才勉强抓取了几条数据，而且还经常因为网站结构变化导致脚本失效。

直到我发现了Pyspider——这个由国内大神binux开发的爬虫框架，才真正体会到爬虫可以如此简单高效。

Pyspider的强大之处在于它提供了一个直观的WebUI界面，你可以在浏览器里直接编写、调试和监控爬虫脚本，非常适合初学者。

这么说吧，如果用传统的爬虫方法像是用徒手挖矿，那么Pyspider就相当于给你了一台自动化采矿机——图形化操作，一键启动！

今天，我就手把手教你如何使用Pyspider爬取Youku影视排行数据，无论你是爬虫小白还是有一定基础的开发者，都能从这个实例中获益。

打开你的命令行（Windows用户找CMD或PowerShell，Mac用户找终端），输入以下命令：

pip3 install pyspider

如果你同时安装了Python2和Python3，记得确保使用的是pip3而不是pip。

常见坑点：Windows用户可能会遇到PyCurl安装错误。别慌！这是因为缺少PyCurl库。只需从 http://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl 下载对应你Python版本的Wheel文件，然后用pip安装即可。

例如，Windows 64位+Python3.6就下载pycurl‑7.43.0‑cp36‑cp36m‑win_amd64.whl，然后运行：

pip3 install pycurl‑7.43.0‑cp36‑cp36m‑win_amd64.whl

注意：Pyspider与Python 3.7+可能存在兼容性问题，推荐使用Python 3.6。如果非得用更高版本，需要手动修改源码中的async为mark_async。

安装成功后，在命令行输入：

pyspider all

如果看到类似下图的输出，说明启动成功：

* Starting spider ... [OK]
* Starting webui ... [OK]
* Starting scheduler ... [OK]
* Starting fetcher ... [OK]
* Starting processor ... [OK]

这时，Pyspider的Web服务已经在本地5000端口运行。打开浏览器，访问 http://localhost:5000，就能看到Pyspider的WebUI管理页面。

至此，你的"爬虫采矿机"已经启动完毕！

在Pyspider的WebUI界面，点击右侧的Create按钮，创建一个新项目。

创建项目后，你会看到自动生成的代码模板：

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2021-03-28 09:14:23
# Project: youku_ranking

from pyspider.libs.bas