webMagic获取cookie登陆

当遇到需要登录才能访问的网站时,可以结合Selenium和webMagic来实现模拟登陆。首先,通过Selenium配置Maven依赖并确保使用Java8,接着安装与Chrome版本匹配的Chromedriver,并设置环境变量或在代码中指定驱动路径。使用Selenium打开浏览器,输入用户名和密码完成登陆。最后,将获得的cookie传递给webMagic的site对象,以便进行后续的网页抓取。参考链接提供了详细的实现步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

想要爬取的网站需要登录时,可以用Selenium模拟浏览器登陆,获取cookie,设置到webMagic的site中。

 

使用selenium,配置maven依赖

        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
            <version>2.48.0</version>
        </dependency>

注意:selenium 3.0以上版本需要java8。

 

模拟浏览器登陆,需要浏览器驱动,我使用的是Chrome,驱动Chromedriver下载地址:http://chromedriver.storage.googleapis.com/index.html。

注意Chromedriver和Chrome对应版本。

下载之后配置Chromedriver的环境变量,不配置也可以在代码里注册驱动。

System.setProperty("webdriver.chrome.driver",
	"D:/chromedriver/chromedriver.exe"); // 注册驱动

然后打开浏览器,设置用户名,密码进行登陆。

 

完整代码

package us.codecraft.webmagic.processor.example;

import java.util.Set;

import
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值