
爬虫
文章平均质量分 52
TensorGroot
secret
展开
-
selenium 拦截网站数据,爬虫处理js
((RemoteWebDriver) driver).executeScript( "window.getJSON=$.getJSON;$.getJSON=function(){ window.funObj=arguments[2]; var myFun=function(data){ window.myData=data;} ; window.getJSON(arguments[0],原创 2017-04-13 23:01:31 · 3711 阅读 · 0 评论 -
selenium 拦截网站非ajax数据,爬虫处理js
WebDriver driver = new MyPhantomJSDriver(sessionId, 48105); driver.findElement(By.name("username")).sendKeys(name); driver.findElement(By.name("idcard")).sendKeys(idCard); driver.findElement(By.原创 2017-04-16 15:16:37 · 2018 阅读 · 0 评论 -
selenium+phantomjs 爬虫 获取中国移动,电信,联通通话记录
主要获取中国电信,中国移动,联通通话记录 提取征信维度,使用selenium+phantomjs完成对网站数据的爬取,由于phantomjs不符合 分布式爬取要求,所以自己动手重构了phantomjs的源码http://git.oschina.net/wds/contact有任何问题欢迎 留言 QQ:948993066原创 2017-06-12 15:22:36 · 17938 阅读 · 2 评论 -
selenium与PhantomJSDriver整合 加速 网站爬取
在使用 PhantomJSDriver 的时候 ,因为每次start client 是每次爬取 数据非常 在 30 s 左右 ,对于 源码的研究 自己改造 了 ,其中关键代码 已贴出package org.openqa.selenium.phantomjs;import java.io.IOException;import java.lang.reflect.Field;imp原创 2017-04-13 22:14:18 · 7475 阅读 · 0 评论