
前言
- 本系列文章来源于真实的需求
- 本系列文章你来提我来做
- 本系列文章仅供学习参考
- 阅读人群:有Python基础、Scrapy框架基础
一、需求
- 全站爬取游戏卡牌信息

二、分析
- 查看网页源代码,图片资源是否存在

- 网页源码中,定位下一页url路径

整体思路
1、通过Scrapy框架(中间件随机UA、代理)
2、通过Xpath构造单页爬取
3、通过Xpath定位下一页实现翻页功能
三、处理
初始化Scrapy框架
- Pycharm创建项目
- 安装Scrapy第三方库 pip install scrapy==2.5.1
- 创建项目 scrapy startproject card
- 进入card目录 cd card
- 创建爬虫 scrapy genspider get_card shadowverse-portal.com
- 修改start_urls

编写get_card 文件
1、获取标题和图片url
2、翻页功能
def parse(self, response):
# 获取标题和图片url
display = response.xpath("//div[@id='displayVisual']")
for d in display:
img_url = d.xpath("//img[@class='el-card-visual-image js-card-image lazyload']/@data-src").extract()
title = d.xpath("//img[@class='el-card-visual-image js-card-image lazyload']/@alt").extract()
img_url_dict = dict(zip(title, img_url))

本文详细介绍了如何利用Python的Scrapy框架,结合Xpath解析工具,爬取游戏卡牌的全站信息。文章涵盖了需求分析、Scrapy项目的初始化、爬虫编写(包括标题和图片URL的提取以及翻页功能实现)、图片资源的处理(通过ImagePipeline保存图片)以及使用中间件实现随机UA和代理。此外,还提供了源码下载链接。
最低0.47元/天 解锁文章

1828

被折叠的 条评论
为什么被折叠?



