sjtuLib爬虫-Scrapy

博主分享了使用Python的Scrapy框架爬取上海交通大学图书馆网站的经历,尽管网站性能不佳,但成功获取了15万条记录。在大规模爬取后,IP遭到图书馆封锁,甚至影响到整个实验室的访问。文章强调Scrapy的回调函数可以并行运行,提高爬取效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

交大的图书馆网站做的真的不好,不好。但是还是要爬。没有做防墙机制,在爬取了15万条记录之后,IP又被图书馆墙了,而且貌似整个实验室都被wall了。。。。

上代码!

from scrapy.spiders import Spider  
from scrapy.selector import Selector  
import scrapy
#from scrapy import log  
  
from appstore.items import appstoreItem  
  
  
class appstoreSpider(Spider):  
   
    
    name = "appstore" #不要在意爬虫的名字,这只是一个代号
    #allowed_domains = ["www.apple.com"]#这个部分其实只是最为一个控制,是的爬取的过程中所有的url都在这个域名下。也可以没有这个限制。这里就是把其注释掉了
    start_urls = [  
        "http://ourex.lib.sjtu.edu.cn/primo_library/libweb/action/search.do?dscnt=0&dstmp=1462803572893&searchField=callnumber&fn=BrowseRedirect&vid=chinese&searchTxt="  
    ]  #我们开始的网页地址,交大图书馆思源浏览下的按索书号浏览。
    
    #我们的爬虫有点点复制,首先涉及到下一页跳转的问题,然后,为了获取每个数目的信息,还要点进去连接,反正道理都一样。给每个函数定义好功能就很清楚了呢。
  	#讲述之前,我们先来说一下蜘蛛的逻辑吧。
  	#每个蜘蛛都有一个(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

钱塘小甲子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值