
selenium
文章平均质量分 73
iteye_12411
这个作者很懒,什么都没留下…
展开
-
java模拟浏览器包htmlunit,selenium
发现一个很不错的模拟浏览器包htmlunit,它可以直接执行访问网站地址,并执行相应的JavaScript脚本;这个功能对于网站爬虫有很大的帮助,一些网站使用了ajax,如果使用简单的http访问只能抓到原始的html源码,但对于页面内执行的ajax却无法获取;使用这个包后,可以将执行ajax后的html源码一并抓取下来。网站地址:http://htmlunit.sourceforge.ne...原创 2012-05-27 16:49:21 · 387 阅读 · 0 评论 -
抓取Js动态生成数据且以滚动页面方式分页的网页
当我们在进行数据抓取的时候,如果目标网站是以Js的方式动态生成数据且以滚动页面的方式进行分页,那么我们该如何抓取呢?如类似今日头条这样的网站:http://toutiao.com/我们可以使用Selenium来搞定这件事情。Selenium的设计目的虽然是用于Web应用程序的自动化测试,但是却非常适合用来做数据抓取,可以非常简单地绕过网站的反爬虫限制,因为Selenium直接运行在浏览...原创 2015-11-08 23:21:33 · 369 阅读 · 1 评论