结合前面两个文章,又整理了存储成JSON文件的内容,其实很简单。
一、修改pipelines.py文件
完整代码如下:
import json # 加载模块
class DoubanxsPipeline(object):
#def process_item(self, item, spider):
#return item
def __init__(self):
self.file = open(r'd://tmp/doubanxs.json', 'w') # 初始化写文件句柄
def process_item(self, item, spider):
line = json.dumps(dict(item)).encode('utf-8').decode('unicode_escape') + "\n"
self.file.write(line) # 写入数据
return item
二、修改settings.py文件,开启item管道
把下面这行代码打开就行(把前面的注释去掉)
ITEM_PIPELINES = {
'doubanxs.pipelines.DoubanxsPipeline': 300,
}
三、如果前面有设置了生成CSV的代码,那就请注释掉,要不然同时也会生成CSV文件的。
如果前面没有设置生成CSV的代码,就没有问题了。