Python 爬虫案例(三)--时间比较

本文介绍了一个使用Python爬虫从alamedaca.gov网站抓取未过期标书的案例。通过解析网页,定位title和截止日期元素,利用dateutil.parser进行时间比较,剔除已过期的标书。在完成初步爬取后,对结果进行过滤,最终得到6条有效的标书信息并存储到CSV文件中。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬取的网站是:https://alamedaca.gov/business/bids-rfps
可以看到这样的标书,左侧是标书的title,右侧是标书的截止时间,这里我们要做一个时间比较,过滤掉那些已经过期的标书,而且下边有next按钮,我们需要翻页:
这里写图片描述
在终端创建新的project,取名为优快云2,爬虫名字就叫做alamedaca好了:
这里写图片描述
在PyCharm中打开刚刚创建的优快云2这个project,然后编写items.py:

from scrapy import Item,Field

class Csdn2Item(Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = Field()
    dueDate = Field()    #截止日期

然后setting.py中改一下:ROBOTSTXT_OBEY = False
我们看一下目标网站的title在哪里定位,这次我们用css,可以看见每条标书都在一条一条的tr当中,每一页有10条标书,tbody就包含10条tr,title就包含td.views-field.views-field-title中,最后就是截止日期,包含在span.date-display-single当中:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值