Python批量爬取游戏卡牌信息

最新推荐文章于 2025-03-26 21:19:23 发布

原创

最新推荐文章于 2025-03-26 21:19:23 发布 · 2.8k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #pycharm #爬虫

本文详细介绍了如何利用Python的Scrapy框架，结合Xpath解析工具，爬取游戏卡牌的全站信息。文章涵盖了需求分析、Scrapy项目的初始化、爬虫编写（包括标题和图片URL的提取以及翻页功能实现）、图片资源的处理（通过ImagePipeline保存图片）以及使用中间件实现随机UA和代理。此外，还提供了源码下载链接。

在这里插入图片描述

前言

本系列文章来源于真实的需求
本系列文章你来提我来做
本系列文章仅供学习参考
阅读人群：有Python基础、Scrapy框架基础

一、需求

全站爬取游戏卡牌信息

在这里插入图片描述

二、分析

查看网页源代码，图片资源是否存在

在这里插入图片描述

网页源码中，定位下一页url路径

在这里插入图片描述

整体思路
1、通过Scrapy框架（中间件随机UA、代理）
2、通过Xpath构造单页爬取
3、通过Xpath定位下一页实现翻页功能

三、处理

初始化Scrapy框架

Pycharm创建项目
安装Scrapy第三方库 pip install scrapy==2.5.1
创建项目 scrapy startproject card
进入card目录 cd card
创建爬虫 scrapy genspider get_card shadowverse-portal.com
修改start_urls

编写get_card 文件
1、获取标题和图片url
2、翻页功能

    def parse(self, response):
        # 获取标题和图片url
        display = response.xpath("//div[@id='displayVisual']")
        for d in display:
            img_url = d.xpath("//img[@class='el-card-visual-image js-card-image lazyload']/@data-src").extract()
            title = d.xpath("//img[@class='el-card-visual-image js-card-image lazyload']/@alt").extract()
            img_url_dict = dict(zip(title, img_url))

最低0.47元/天解锁文章