Python爬虫基础教程（98）Pyspider实战：Youku影视排行之创建项目：手把手教你用Pyspider爬取Youku影视排行，小白也能秒变数据大神！-优快云博客

不用担心看不懂代码，跟着做就能让数据手到擒来

一、前期准备：装好你的爬虫利器

1.1 为什么选择Pyspider？

Pyspider是由国内大神binux开发的一款强大网络爬虫框架。它有一个直观的WebUI界面——你可以在浏览器里直接编写、调试和监控爬虫脚本，非常适合初学者。

这么说吧，如果用传统的爬虫方法像是用徒手挖矿，那么Pyspider就相当于给你了一台自动化采矿机——图形化操作，一键启动！

1.2 安装Pyspider

打开你的命令行（Windows用户找CMD或PowerShell，Mac用户找终端），输入以下命令：

pip3 install pyspider

如果你同时安装了Python2和Python3，记得确保使用的是pip3而不是pip。

常见坑点：Windows用户可能会遇到PyCurl安装错误。别慌！这是因为缺少PyCurl库。只需从http://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl 下载对应你Python版本的Wheel文件，然后用pip安装即可。

例如，Windows 64位+Python3.6就下载pycurl‑7.43.0‑cp36‑cp36m‑win_amd64.whl，然后运行：

pip3 install pycurl‑7.43.0‑cp36‑cp36m‑win_amd64.whl

注意：Pyspider与Python 3.7+可能存在兼容性问题，推荐使用Python 3.6。如果非得用更高版本，需要手动修改源码中的async为mark_async。

1.3 验证安装

安装成功后，在命令行输入：

pyspider all

如果看到类似图1-74的输出，说明启动成功。

这时，Pyspider的Web服务已经在本地5000端口运行。打开浏览器，访问http://localhost:5000，就能看到Pyspider的WebUI管理页面。

至此，你的"爬虫采矿机"已经启动完毕！

二、创建第一个Youku影视排行爬虫项目

2.1 新建项目

在Pyspider的WebUI界面，点击右侧的Create按钮，创建一个新项目。

Project Name：你可以起个响亮的名字，比如"youku_ranking"
Start URL(s)：这里我们填入Youku影视排行页面的URL

2.2 理解Pyspider的项目结构

创建项目后，你会看到自动生成的代码模板：

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2021-03-28 09:14:23
# Project: youku_ranking

from pyspider.libs.base_handler import *

class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://www.reeoo.com', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    @config(priority=2)
    def detail_page(self, response):
        return {
            "url": response.url,