在scrapy_splash中加载本地Cookies

本文详细介绍了如何在Scrapy爬虫与Splash浏览器自动化工具之间传递Cookies,实现登录状态保持。从lua脚本获取Cookies并返回给Scrapy,再到Scrapy如何将Cookies传入SplashRequest进行请求,确保了爬虫在需要登录的网站上能够正常工作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Splash→Scrapy:

首先,lua脚本中要返回Cookies:

return {cookies = splash:get_cookies()}

然后,在spider中调用response.cookiejar即可得到返回的Cookies

Scrapy→Splash

把Cookies作为参数传递到SplashRequest()中:

def start_requests(self):
        local = "D:\\...\\VertifiedCookies.txt"
        with open(local, 'r+') as f:
            cookies = eval(f.read())
        url = 'https://www.example.com'
        script = """
        function main(splash)
            splash:clear_cookies()
            splash:init_cookies(splash.args.cookies)
            assert(splash:go(splash.args.url))
            assert(splash:wait(splash.args.wait))
            return {cookies = splash:get_cookies(),html = splash:html()}
        end
        """
        yield SplashRequest(url, self.parse, endpoint='execute', args={'lua_source':script,'wait':1}, cookies=cookies)

传入数据的参数类型与scrapy.Request中的cookies相同:
1202076-20190507144837393-105256860.png

转载于:https://www.cnblogs.com/lokvahkoor/p/10805364.html

Scrapy中处理动态内容加载的网页通常涉及到两个关键技术:异步爬取和等待条件。 1. **模拟交互**:对于JavaScript驱动的动态加载Scrapy本身并不支持直接操作DOM。但你可以借助一些库如Selenium或者Splash这样的服务来模拟浏览器行为。首先,将动态加载的部分视为单独的请求,在Spider中发出GET请求到对应的URL,获取HTML源码,然后在Selenium中解析并触发动态事件。 ```python from selenium import webdriver class MyDynamicSpider(scrapy.Spider): # ... 其他配置 ... def __init__(self, *args, **kwargs): super().__init__(*args, **kwargs) self.driver = webdriver.Firefox() # 或者Chrome等浏览器 def parse(self, response): # 使用webdriver打开页面并发送Ajax请求 self.driver.get(response.url) # 等待页面加载完成,可根据情况调整这个时间 time.sleep(3) html = self.driver.page_source # 使用BeautifulSoup或lxml解析新的HTML parsed_html = BeautifulSoup(html, 'html.parser') # 提取你需要的信息 yield {key: value for key, value in parsed_html.find_all('div', class_='dynamic-content')} def closed(self, reason): self.driver.quit() ``` 2. **等待条件**:有些站点会依赖特定的API请求间隔或者cookies来进行动态加载。这时,可以在Spider的回调函数中添加延时或检查条件,直到满足再继续爬取。 ```python from twisted.internet import reactor, defer def wait_and_parse(self, response): d = defer.Deferred() def check_more_data(): if self.check_for_more_data(response): # 检查是否有更多数据 return True else: reactor.callLater(0, d.callback, None) # 如果没有,延时后返回 d.addCallback(check_more_data) return d # 在parse方法中使用这个wait_and_parse yield wait_and_parse(response) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值