sjtuLib爬虫-Scrapy

最新推荐文章于 2025-03-20 08:59:58 发布

原创

最新推荐文章于 2025-03-20 08:59:58 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #图书

博主分享了使用Python的Scrapy框架爬取上海交通大学图书馆网站的经历，尽管网站性能不佳，但成功获取了15万条记录。在大规模爬取后，IP遭到图书馆封锁，甚至影响到整个实验室的访问。文章强调Scrapy的回调函数可以并行运行，提高爬取效率。

交大的图书馆网站做的真的不好，不好。但是还是要爬。没有做防墙机制，在爬取了15万条记录之后，IP又被图书馆墙了，而且貌似整个实验室都被wall了。。。。

上代码！

from scrapy.spiders import Spider  
from scrapy.selector import Selector  
import scrapy
#from scrapy import log  
  
from appstore.items import appstoreItem  
  
  
class appstoreSpider(Spider):  
   
    
    name = "appstore" #不要在意爬虫的名字，这只是一个代号
    #allowed_domains = ["www.apple.com"]#这个部分其实只是最为一个控制，是的爬取的过程中所有的url都在这个域名下。也可以没有这个限制。这里就是把其注释掉了
    start_urls = [  
        "http://ourex.lib.sjtu.edu.cn/primo_library/libweb/action/search.do?dscnt=0&dstmp=1462803572893&searchField=callnumber&fn=BrowseRedirect&vid=chinese&searchTxt="  
    ]  #我们开始的网页地址，交大图书馆思源浏览下的按索书号浏览。
    
    #我们的爬虫有点点复制，首先涉及到下一页跳转的问题，然后，为了获取每个数目的信息，还要点进去连接，反正道理都一样。给每个函数定义好功能就很清楚了呢。
  	#讲述之前，我们先来说一下蜘蛛的逻辑吧。
  	#每个蜘蛛都有一个（