禁用图片等提高FirefoxDriver的加载速度

本文分享了在Selenium中禁用浏览器加载图片、Flash和CSS的方法,以提高爬虫速度。通过设置FirefoxProfile参数,可以禁用图片、Flash和CSS,从而减少加载时间并提升爬虫效率。
有时候,与其自己写一个解析网页的爬虫不如直接使用别人的浏览器驱动,直接用浏览器来解析网页好。而且使用浏览器的话可以执行自己的Javascript,这样直接用Jquery之类的库来提取内容比用Java来解析XML也爽得多。有一个叫selenium的库,本来是用来自动测试用的,这里拿来做爬虫用。用浏览器做爬虫有个问题,就是他会自动下载图片,Flash和CSS之类乱其八糟的东西,如果能禁用掉,可以大大提高解析速度。下面就是如何在selenium中禁用图片等的代码片段。这里分享出来的原因是这几个参数比较晦涩难找,没有出现在公开文档中,希望能帮到有需要的人。
	System.setProperty("webdriver.firefox.bin",
                "D:/Program Files (x86)/Mozilla Firefox/firefox.exe");
	// 上边是设置firefox可执行文件的路径			
	// 关图片
	FirefoxProfile firefoxProfile = new FirefoxProfile();
	firefoxProfile.setPreference("permissions.default.image", 2);
        
	// 关掉flash
	firefoxProfile.setPreference("dom.ipc.plugins.enabled.libflashplayer.so", false);
	// 禁用css,不方便调试了。。
	// fireFoxProfile.setPreference("permissions.default.stylesheet", 2);
	// 启动快速加载,不过好像没什么改变。照官方说法在load结束前就可以开始操作,不过我这还是被blocked直到页面加载完毕        firefoxProfile.setPreference("webdriver.load.strategy", "unstable");
chromedriver也有类似的方法,不过是最近才开始添加的,示例不全,所以只好用firefox
Internet Explorer好像没有类似的选项
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值