
爬虫
爬虫
pushiqiang
学习分享
展开
-
(python解析js)scrapy结合ghost抓取js生成的页面,以及js变量的解析
现在页面用ajax的越来越多, 好多代码是通过js执行结果显示在页面的(比如:http://news.sohu.com/scroll/,搜狐滚动新闻的列表是在页面请求时由后台一次性将数据渲染到前台js变量newsJason和arrNews里面的,然后再由js生成div和li,故要想或得结果必须要解析执行js), 所以在scrapy抓取过程中就需要通过一个中间件来执行这个js代码。 scrapy 本身原创 2016-04-10 16:26:52 · 8522 阅读 · 1 评论 -
(python解析js)selenium结合phantomjs抓取js生成的页面
有些网页是在加载时动态创建HTML内容,只要在js代码完全执行完后才会显示最终结果。如果用传统的方法抓取页面,就只能获得js代码执行之前页面上的内容。要解决这个问题有两种方法: 1.直接从js代码中抓取数据(执行js代码,解析js变量)。 2.用第三方库运行js,抓取运行后的最终html页面。 在python中使用selenium执行jsselenium是一个强调的网络数据采集工具,其最初是原创 2016-05-01 15:06:50 · 26136 阅读 · 9 评论 -
使用selenium+phantomjs模拟登录淘宝
使用自动化工具selenium可以很方便模拟淘宝登录 from selenium import webdriver driver = webdriver.PhantomJS(executable_path='/opt/phantomjs-2.1.1-linux-i686/bin/phantomjs') #driver = webdriver.Firefox()原创 2016-05-08 20:05:31 · 13435 阅读 · 4 评论