我们前面已经大概了解过如何新建一个scrapy框架项目,我们现在重新来整理一下思路,来练习一下我们的所学知识
演示HTML地址为:http://python123.io/ws/demo.html
文件名称为:demo.html
打开如下所示:
下面我们将来演示一下如何爬取该地址
我们回顾一下其步骤:
- 建立一个scrapy爬虫工程
window+r – 输入cmd – 输入scrapy startproject wwwpython(e.g.新建工程wwwpython)
我们会看到文件夹里有这些文件
- 在工程中产生一个scrapy爬虫
输入命令就好
cd wwwpython
scrapy genspider demo
这里我们就能在spider工程目录下有一个demo.py的文件了
- 配置产生的spider爬虫
打开文件,修改我们期望的代码即可
代码如下:
import scrapy
class DemoSpider(scrapy.Spider):
name = "Demo"
start_urls = ['http://python123.io/ws/demo.html']
def parse(self, response):
fname = response.url.split('/')[-1]
with open(fname, 'wb') as f:
f.write(response.body)
self.log('Save file %s, ' %name)
- 运行代码
输入
scrapy crawl demo
可看到执行,结束语句为:INFO: Closing spider (finished)
且文件也保存在根目录中
第八篇关于scrapy框架就到此结束啦!
主要是来重新梳理一下思路,由于第七篇解释的内容过多,故重新概括一下