scrapy(一)

 

创建scrapy项目

命令:scrapy startproject dirctory_name

 

可以发现在tm_spider目录下创建了一个文件夹:spider_402,文件夹结构如下

 

 

 

定义一个spiders爬虫class(类) ,该class是scrap.Spider的subclass(子类)。 在这个sipders class里面,要定义初始的request,需要进行爬虫的URL以及解析该URL网页获取数据。

 

 

 1 import scrapy
 2 
 3 
 4 class QuotesSpider(scrapy.Spider):
 5     name = "quotes" #标识爬虫,在项目里面是唯一的,
 6 
 7 #start_requests:返回Spider将开始抓取的请求的迭代,随后的请求将从这些初始请求中连续生成
 8     def start_requests(self):
 9         urls = [
10             'http://quotes.toscrape.com/page/1/',
11             'http://quotes.toscrape.com/page/2/',
12         ]
13         for url in urls:
14             yield scrapy.Request(url=url, callback=self.parse)
15 
16     def parse(self, response):
17         page = response.url.split("/")[-2]
18         filename = 'quotes-%s.html' % page
19         with open(filename, 'wb') as f:
20             f.write(response.body)
21         self.log('Saved file %s' % filename)

 

 

 

 

 在项目的根目录下执行命令   scrapy crawl quotes

 

 

 

 

 

 

 用scrapy的shell命令抓取网页

scrapy shell "http://quotes.toscrape.com/page/1/"

 

 使用response对象的css关键字选择元素,它的返回值是选择器的列表。

 

 

 ::text取到title标签的文字内容

 

 

 如果不带::text,就会把标签元素一起拿下来

   extract()函数返回的是一个list类型的数据,如果要去第一个元素,可以用extract_first()

转载于:https://www.cnblogs.com/taoHongFei/p/8698344.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值