本篇博客将系统的复习一下 scrapy 保存数据相关内容,即 导出器(Exporter)相关知识。
使用 Exporter 导出数据
编写 scrapy 爬虫是非常便捷的,而且可以快速的保存采集的结果,只需要运行爬虫时,在命令行输入如下代码:
scrapy crawl 爬虫文件名 -o 保存文件名
在 Scrapy 中,导出数据的中间件叫做 Exporter
,即导出器,它内置了 6 种可导出格式,分别是 JSON
,JSON LINES
,CSV
,XML
,Pickle
,Matshal
。
一般使用上述的内置格式,就可以满足各种场景需求了。
在存储的时候,只需要在命令行下输入 -o 文件名.后缀
,即可基于文件后缀名区分存储文件格式。
也可以通过 -t 文件类型
进行格式的选择,例如下述命令行: