目录
注:此次内容用于自我学习
一、准备工作
1.抓取的网址
壁纸湖网-为壁纸控攒宝藏
2.创建根目录
3.新建项目
scrapy startproject <文件名>
4.新建爬虫
scrapy genspider <爬虫名称> <域名>
cd进入此目录,在此基础上创建爬虫
5.页面解析
如果只有一层解析,则直接将其yield返回item
如果有两层解析,则需要使用url拼接,返回拼接后的网址请求:
url = response.urljoin(href) # 其中href为第二层访问地址的后半部分
yield scrapy.Request(
url = response.urljoin(href),
method = 'get',
callback = self.parse_next # 回调函数,当响应回馈之后,交给自己针对新页面而定义的parse_next方法去进行第二次页面解析
)
之后自己定义parse_next方法,返回需要的item
二、大体流程
1.自定义存储结构
class TupianItem(scrapy.Item):
# define the fields for your item here like:
url= scrapy.Field()
2.设置log级别
LOG_LEVEL = "WARNING"