爬取的网站是:https://alamedaca.gov/business/bids-rfps
可以看到这样的标书,左侧是标书的title,右侧是标书的截止时间,这里我们要做一个时间比较,过滤掉那些已经过期的标书,而且下边有next按钮,我们需要翻页:
在终端创建新的project,取名为优快云2,爬虫名字就叫做alamedaca好了:
在PyCharm中打开刚刚创建的优快云2这个project,然后编写items.py:
from scrapy import Item,Field
class Csdn2Item(Item):
# define the fields for your item here like:
# name = scrapy.Field()
title = Field()
dueDate = Field() #截止日期
然后setting.py中改一下:ROBOTSTXT_OBEY = False
我们看一下目标网站的title在哪里定位,这次我们用css,可以看见每条标书都在一条一条的tr当中,每一页有10条标书,tbody就包含10条tr,title就包含td.views-field.views-field-title中,最后就是截止日期,包含在span.date-display-single当中: