快速入门：pyspider爬虫框架使用指南

雷豪创Isaiah

于 2025-06-02 09:04:44 发布

阅读量703

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00508/article/details/148375659

快速入门：pyspider爬虫框架使用指南

pyspider A Powerful Spider(Web Crawler) System in Python. 项目地址: https://gitcode.com/gh_mirrors/py/pyspider

什么是pyspider

pyspider是一个强大的Python爬虫框架，它提供了完整的爬取、处理和存储功能。相比于Scrapy等框架，pyspider最大的特点是内置了WebUI，开发者可以通过可视化界面编写、调试和监控爬虫任务，大大降低了爬虫开发的门槛。

环境安装

在开始使用pyspider前，需要先安装必要的环境依赖：

基础安装（推荐使用pip）：

pip install pyspider

对于Ubuntu系统用户，建议先安装以下依赖包：

sudo apt-get install python python-dev python-distribute python-pip \
libcurl4-openssl-dev libxml2-dev libxslt1-dev python-lxml \
libssl-dev zlib1g-dev

如果需要抓取JavaScript渲染的页面，还需要安装PhantomJS。安装后确保PhantomJS可执行文件在系统PATH环境变量中。

安装完成后，只需在命令行运行：

pyspider

然后访问http://localhost:5000/即可看到pyspider的Web界面。

安全提示：默认情况下WebUI是公开访问的，这可能存在安全风险。建议仅在内网使用，或配置认证机制。

第一个爬虫项目

下面我们通过一个简单的示例来了解pyspider的基本用法。这个爬虫会抓取scrapy.org网站的所有链接，并提取每个页面的标题。

from pyspider.libs.base_handler import *

class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://scrapy.org/', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    @config(priority=2)
    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }