导入DropItem模块用来删除
from scrapy.exceptions import DropItem
class CsdnPipeline(object):
def __init__(self):
self.book_set = set()
def process_item(self, item, spider):
name = item['title']
if name in self.book_set:
raise DropItem("有: %s 了" % item)
else:
self.book_set.add(name)
return item
大概思路就是init()方法来初始化对象
然后判断获取内容是否已经出现过
如果出现过就删除
没有出现过就继续添加