scrapy 爬取大型图片网站(http://5442.com/)

本文介绍了如何使用Scrapy框架来爬取一个大型图片网站5442.com。首先创建项目,然后生成基本类型的爬虫文件,接着定义items以保存URL,深入分析网站结构,抓取不同层级的链接,包括首页、分类页和图片页。最后,编写pipelines处理爬取到的数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、首先创建项目

    进入相对应目录,输入scrapy startproject  img

2、创建爬虫文件

    cd img   输入   scrapy  genspider -t    basic  qiantu  5442.com

3、进入 items文创建保存url地址容器

    

import scrapy


class ImgItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    url = scrapy.Field()

4、分析网站  编写

  首页爬取的第一层链接  


 

def parse(self, response):

    urldata = response.xpath("//div[@class='nav both']//a/@href").extract()
    print(urldata)
    for i in range(0, len(urldata)):
        urllist = urldata[i]
        yield Request(url=urllist, callback=self.next)

提取第二层链接



 
def 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值