HtmlUnit爬取动态数据(js相关)

最新推荐文章于 2021-11-30 10:36:00 发布

原创最新推荐文章于 2021-11-30 10:36:00 发布 · 3.8k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#Jsoup爬取JS值 #htmlunit

爬虫技术专栏收录该内容

1 篇文章

订阅专栏

在遇到Jsoup无法获取动态页面数据的问题后，转向使用HtmlUnit来解决。HtmlUnit是一个能处理JavaScript的无头浏览器，使得爬取动态生成的内容成为可能。通过参考资料和下载jar包，了解到HtmlUnit的基本使用方法，它对于爬取JavaScript相关数据非常有效。

今天在写一个爬虫的时候遇到了一个问题，就是在使用Jsoup获取html时只能解析静态的页面，只要是页面中与js相关的动态数据都是不能够爬取到的，在网上搜索了些资料后发现能够使用htmlunit来解决这个问题

参考资料：http://www.cnblogs.com/cation/p/3933408.html
jar包下载：http://sourceforge.net/projects/htmlunit/files/htmlunit/
简单使用：

// 创建模拟浏览器，参数可以指定不同类型的浏览器
WebClient webClient = new WebClient(); 

// 启用JS解释器，默认为true
webClient.getOptions().setJavaScriptEnabled(true); 

// 禁用css支持
webClient.getOptions().setCssEnabled(false);

// js运行错误时，是否抛出异常
webClient.getOptions().setThrowExceptionOnScriptError(false);

// 设置超时
webClient.getOptions().setTimeout(20000);

// page 就是你获取到的html，你可以进一步的解析数据
HtmlPage page = webClient.getPage("yourUrl"); 

// 这里我会使用Jsoup对html页面进行解析
Document document = Jsoup.parse(pageXml);

/*
* WebClient,WebWindow,Page三者之间的关系,
* 所有的页面最终都是在一个WebWindow对象里面，
* WebClient在创建时会自动的创建一个WebWindow对象，
* 当调用getPage时会将新页面加载到WebWindow里，
* 你可以理解成WebClient就是IE内核，WebWindow就是呈现页面的浏览器窗口，
     */