scrapy-如何在CrawlSpider进行模拟登陆

最新推荐文章于 2025-08-30 00:28:23 发布

原创最新推荐文章于 2025-08-30 00:28:23 发布 · 790 阅读

2 ·

CC 4.0 BY-SA版权

python 同时被 2 个专栏收录

26 篇文章

订阅专栏

爬虫

13 篇文章

订阅专栏

本文介绍如何在Scrapy的CrawlSpider中实现模拟登录，通过实例代码展示登录过程，帮助开发者理解并掌握在爬虫中处理登录的技巧。

因为CrawlSpider和Spider一样，都要使用start_requests发起请求，用从Andrew_liu大神借鉴的代码说明如何模拟登陆：

##替换原来的start_requests，callback为
def start_requests(self):
    return [Request("http://www.zhihu.com/#signin", meta = {'cookiejar' : 1}, callback = self.post_login)]
def post_login(self, response):
    print 'Preparing login'
    #下面这句话用于抓取请求网页后返回网页中的_xsrf字段的文字, 用于成功提交表单
    xsrf = Selector(response).xpath('//input[@name="_xsrf"]/@value').extract()[0]
    print xsrf
    #FormRequeset.from_response是Scrapy提供的一个函数, 用于post表单
    #登陆成功后, 会调用after_login回调函数
    return [FormRequest.from_response(response,   #"http://www.zhihu.com/login",
                        meta = {'cookiejar' : response.meta['cookiejar']},
                        headers = self.headers,
                        formdata = {
                        '_xsrf': xsrf,
                        'email': 'email',
                        'password': 'password'
                        },
                        callback = self.after_login,
                        dont_filter = True
                        )]
#make_requests_from_url会调用parse，就可以与CrawlSpider的parse进行衔接了
def after_login(self, response) :
    for url in self.start_urls :
        yield self.make_requests_from_url(url)