交大的图书馆网站做的真的不好,不好。但是还是要爬。没有做防墙机制,在爬取了15万条记录之后,IP又被图书馆墙了,而且貌似整个实验室都被wall了。。。。
上代码!
from scrapy.spiders import Spider
from scrapy.selector import Selector
import scrapy
#from scrapy import log
from appstore.items import appstoreItem
class appstoreSpider(Spider):
name = "appstore" #不要在意爬虫的名字,这只是一个代号
#allowed_domains = ["www.apple.com"]#这个部分其实只是最为一个控制,是的爬取的过程中所有的url都在这个域名下。也可以没有这个限制。这里就是把其注释掉了
start_urls = [
"http://ourex.lib.sjtu.edu.cn/primo_library/libweb/action/search.do?dscnt=0&dstmp=1462803572893&searchField=callnumber&fn=BrowseRedirect&vid=chinese&searchTxt="
] #我们开始的网页地址,交大图书馆思源浏览下的按索书号浏览。
#我们的爬虫有点点复制,首先涉及到下一页跳转的问题,然后,为了获取每个数目的信息,还要点进去连接,反正道理都一样。给每个函数定义好功能就很清楚了呢。
#讲述之前,我们先来说一下蜘蛛的逻辑吧。
#每个蜘蛛都有一个(