有时候,与其自己写一个解析网页的爬虫不如直接使用别人的浏览器驱动,直接用浏览器来解析网页好。而且使用浏览器的话可以执行自己的Javascript,这样直接用Jquery之类的库来提取内容比用Java来解析XML也爽得多。有一个叫selenium的库,本来是用来自动测试用的,这里拿来做爬虫用。用浏览器做爬虫有个问题,就是他会自动下载图片,Flash和CSS之类乱其八糟的东西,如果能禁用掉,可以大大提高解析速度。下面就是如何在selenium中禁用图片等的代码片段。这里分享出来的原因是这几个参数比较晦涩难找,没有出现在公开文档中,希望能帮到有需要的人。
Internet Explorer好像没有类似的选项
System.setProperty("webdriver.firefox.bin",
"D:/Program Files (x86)/Mozilla Firefox/firefox.exe");
// 上边是设置firefox可执行文件的路径
// 关图片
FirefoxProfile firefoxProfile = new FirefoxProfile();
firefoxProfile.setPreference("permissions.default.image", 2);
// 关掉flash
firefoxProfile.setPreference("dom.ipc.plugins.enabled.libflashplayer.so", false);
// 禁用css,不方便调试了。。
// fireFoxProfile.setPreference("permissions.default.stylesheet", 2);
// 启动快速加载,不过好像没什么改变。照官方说法在load结束前就可以开始操作,不过我这还是被blocked直到页面加载完毕 firefoxProfile.setPreference("webdriver.load.strategy", "unstable");
chromedriver也有类似的方法,不过是最近才开始添加的,示例不全,所以只好用firefoxInternet Explorer好像没有类似的选项
本文分享了在Selenium中禁用浏览器加载图片、Flash和CSS的方法,以提高爬虫速度。通过设置FirefoxProfile参数,可以禁用图片、Flash和CSS,从而减少加载时间并提升爬虫效率。

被折叠的 条评论
为什么被折叠?



