在之前的系列文章中介绍了如何使用httpclient抓取页面html以及如何用jsoup分析html源文件内容得到我们想要的数据,但是有时候通过这两种方式不能正常抓取到我们想要的数据,比如看如下例子。
1.需求场景:
想要抓取股票的最新价格,页面F12信息如下:
按照前面的方式,爬取的代码如下:
/**
* @description: 爬取股票的最新股价
* @author: JAVA开发老菜鸟
* @date: 2021-10-16 21:47
*/
public class StockPriceSpider {
Logger logger = LoggerFactory.getLogger(this.getClass());
public static void main(String[] args) {
StockPriceSpider stockPriceSpider = new StockPriceSpider();
String html = stockPriceSpider.httpClientProcess();
stockPriceSpider.jsoupProcess(html);
}
private String httpClientProcess() {
String html = "";
String uri = "http://quote.eastmoney.com/sh600036.html";
//1.生成httpclient,相当于该打开一个浏览器
CloseableHttpClient httpClient = HttpClients.createDefault();
CloseableHttpResponse response = null;
//2.创建get请求,相当于在浏览器地址栏输入 网址
HttpGet reques

本文介绍如何在Java爬虫中处理异步加载的数据,特别是针对股票价格等实时信息。通过Selenium模拟浏览器内核,抓取JavaScript渲染后的页面内容,确保获取到正确数据。文章还提到了反向解析法作为另一种可能的解决方案,但主要讲解了Selenium的使用,包括添加依赖、配置浏览器驱动以及代码实现。最后,作者分享了一个使用这些技术实现的持仓市值通知系统。
最低0.47元/天 解锁文章
1565

被折叠的 条评论
为什么被折叠?



