1、首先创建项目
进入相对应目录,输入scrapy startproject img
2、创建爬虫文件
cd img 输入 scrapy genspider -t basic qiantu 5442.com
3、进入 items文创建保存url地址容器
import scrapy class ImgItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() url = scrapy.Field()
4、分析网站 编写
首页爬取的第一层链接
def parse(self, response): urldata = response.xpath("//div[@class='nav both']//a/@href").extract() print(urldata) for i in range(0, len(urldata)): urllist = urldata[i] yield Request(url=urllist, callback=self.next)
提取第二层链接
def