在scrapy_splash中加载本地Cookies

最新推荐文章于 2023-05-18 18:01:47 发布

a419715160

最新推荐文章于 2023-05-18 18:01:47 发布

阅读量714

点赞数

文章标签： python lua

原文链接：http://www.cnblogs.com/lokvahkoor/p/10805364.html

版权

本文详细介绍了如何在Scrapy爬虫与Splash浏览器自动化工具之间传递Cookies，实现登录状态保持。从lua脚本获取Cookies并返回给Scrapy，再到Scrapy如何将Cookies传入SplashRequest进行请求，确保了爬虫在需要登录的网站上能够正常工作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Splash→Scrapy：

首先，lua脚本中要返回Cookies：

return {cookies = splash:get_cookies()}

然后，在spider中调用response.cookiejar即可得到返回的Cookies

Scrapy→Splash

把Cookies作为参数传递到SplashRequest()中：

def start_requests(self):
        local = "D:\\...\\VertifiedCookies.txt"
        with open(local, 'r+') as f:
            cookies = eval(f.read())
        url = 'https://www.example.com'
        script = """
        function main(splash)
            splash:clear_cookies()
            splash:init_cookies(splash.args.cookies)
            assert(splash:go(splash.args.url))
            assert(splash:wait(splash.args.wait))
            return {cookies = splash:get_cookies(),html = splash:html()}
        end
        """
        yield SplashRequest(url, self.parse, endpoint='execute', args={'lua_source':script,'wait':1}, cookies=cookies)

传入数据的参数类型与scrapy.Request中的cookies相同：