Python爬虫基础教程(98)Pyspider实战:Youku影视排行之创建项目:手把手教你用Pyspider爬取Youku影视排行,小白也能秒变数据大神!

不用担心看不懂代码,跟着做就能让数据手到擒来

一、前期准备:装好你的爬虫利器

1.1 为什么选择Pyspider?

Pyspider是由国内大神binux开发的一款强大网络爬虫框架。它有一个直观的WebUI界面——你可以在浏览器里直接编写、调试和监控爬虫脚本,非常适合初学者。

这么说吧,如果用传统的爬虫方法像是用徒手挖矿,那么Pyspider就相当于给你了一台自动化采矿机——图形化操作,一键启动!

1.2 安装Pyspider

打开你的命令行(Windows用户找CMD或PowerShell,Mac用户找终端),输入以下命令:

pip3 install pyspider

如果你同时安装了Python2和Python3,记得确保使用的是pip3而不是pip。

常见坑点:Windows用户可能会遇到PyCurl安装错误。别慌!这是因为缺少PyCurl库。只需从http://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl 下载对应你Python版本的Wheel文件,然后用pip安装即可。

例如,Windows 64位+Python3.6就下载pycurl‑7.43.0‑cp36‑cp36m‑win_amd64.whl,然后运行:

pip3 install pycurl‑7.43.0‑cp36‑cp36m‑win_amd64.whl

注意:Pyspider与Python 3.7+可能存在兼容性问题,推荐使用Python 3.6。如果非得用更高版本,需要手动修改源码中的async为mark_async。

1.3 验证安装

安装成功后,在命令行输入:

pyspider all

如果看到类似图1-74的输出,说明启动成功。

这时,Pyspider的Web服务已经在本地5000端口运行。打开浏览器,访问http://localhost:5000,就能看到Pyspider的WebUI管理页面。

至此,你的"爬虫采矿机"已经启动完毕!

二、创建第一个Youku影视排行爬虫项目

2.1 新建项目

在Pyspider的WebUI界面,点击右侧的Create按钮,创建一个新项目。

  • Project Name:你可以起个响亮的名字,比如"youku_ranking"
  • Start URL(s):这里我们填入Youku影视排行页面的URL

2.2 理解Pyspider的项目结构

创建项目后,你会看到自动生成的代码模板:

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2021-03-28 09:14:23
# Project: youku_ranking

from pyspider.libs.base_handler import *

class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://www.reeoo.com', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    @config(priority=2)
    def detail_page(self, response):
        return {
            "url": response.url,
    
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

值引力

持续创作,多谢支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值