HtmlUnit爬取动态数据(js相关)

在遇到Jsoup无法获取动态页面数据的问题后,转向使用HtmlUnit来解决。HtmlUnit是一个能处理JavaScript的无头浏览器,使得爬取动态生成的内容成为可能。通过参考资料和下载jar包,了解到HtmlUnit的基本使用方法,它对于爬取JavaScript相关数据非常有效。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天在写一个爬虫的时候遇到了一个问题,就是在使用Jsoup获取html时只能解析静态的页面,只要是页面中与js相关的动态数据都是不能够爬取到的,在网上搜索了些资料后发现能够使用htmlunit来解决这个问题

// 创建模拟浏览器,参数可以指定不同类型的浏览器
WebClient webClient = new WebClient(); 

// 启用JS解释器,默认为true
webClient.getOptions().setJavaScriptEnabled(true); 

// 禁用css支持
webClient.getOptions().setCssEnabled(false);

// js运行错误时,是否抛出异常
webClient.getOptions().setThrowExceptionOnScriptError(false);

// 设置超时
webClient.getOptions().setTimeout(20000);

// page 就是你获取到的html,你可以进一步的解析数据
HtmlPage page = webClient.getPage("yourUrl"); 

// 这里我会使用Jsoup对html页面进行解析
Document document = Jsoup.parse(pageXml);

/*
* WebClient,WebWindow,Page三者之间的关系,
* 所有的页面最终都是在一个WebWindow对象里面,
* WebClient在创建时会自动的创建一个WebWindow对象,
* 当调用getPage时会将新页面加载到WebWindow里,
* 你可以理解成WebClient就是IE内核,WebWindow就是呈现页面的浏览器窗口,
     */
  • 总结:在这里主要是说一下如何使用HtmlUnit来简单爬取动态网页的数据(主要是与js相关的),至于该框架的一些元素检索、表单提交和代理服务器的详细功能可以参考上面给出的大牛的博客
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值