项目：爬取皮影头茬图片（phantomjs+pyspider）

最新推荐文章于 2022-03-10 17:59:15 发布

原创

最新推荐文章于 2022-03-10 17:59:15 发布 · 819 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文详细介绍使用phantomjs和pyspider爬取皮影数字博物馆中的动态页面图片的方法，包括工具介绍、代码实现及项目成果展示。

爬取皮影头茬图片（phantomjs+pyspider）

工具介绍
项目代码
项目成果
参考资料

工具介绍

phantomjs是一款可编程的无头浏览器（拥有完整的浏览器内核，包括js解析引擎、渲染引擎，请求处理等，但不包括显示和用户交互界面的浏览器）
pyspider是一款爬虫框架，在anaconda虚拟环境中安装使用，对初学者友好，搭载phantomjs后可爬取动态页面（在crawl函数中添加参数：fetch_type='js'）。但是现在多用scrapy了。

项目代码

此代码粘贴到pyspider项目中使用。

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2020-05-12 21:16:26
# Project: piying

from pyspider.libs.base_handler import *
import os
import requests


def save_image(url, title, root):
    """
    传入图片的资源地址，图片名称，和图片要待的文件夹路径，保存单张图片
    """
    image_name = title + '.' + url.split('.')[-1]  # 获取图片名称：xxx.xxx

    try:
        # 如果文件夹不存在，就创建该文件夹
        if not os.path.exists(root):
            os.makedirs(root)
        else:<