Java爬虫系列四：使用selenium-java爬取js异步请求的数据

最新推荐文章于 2025-08-22 12:01:50 发布

原创

最新推荐文章于 2025-08-22 12:01:50 发布 · 2.5k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#java #selenium #爬虫

本文介绍如何在Java爬虫中处理异步加载的数据，特别是针对股票价格等实时信息。通过Selenium模拟浏览器内核，抓取JavaScript渲染后的页面内容，确保获取到正确数据。文章还提到了反向解析法作为另一种可能的解决方案，但主要讲解了Selenium的使用，包括添加依赖、配置浏览器驱动以及代码实现。最后，作者分享了一个使用这些技术实现的持仓市值通知系统。

在之前的系列文章中介绍了如何使用httpclient抓取页面html以及如何用jsoup分析html源文件内容得到我们想要的数据，但是有时候通过这两种方式不能正常抓取到我们想要的数据，比如看如下例子。

1.需求场景：

想要抓取股票的最新价格，页面F12信息如下：
按照前面的方式，爬取的代码如下：

/**
 * @description: 爬取股票的最新股价
 * @author: JAVA开发老菜鸟
 * @date: 2021-10-16 21:47
 */
public class StockPriceSpider {

    Logger logger = LoggerFactory.getLogger(this.getClass());

    public static void main(String[] args) {

        StockPriceSpider stockPriceSpider = new StockPriceSpider();
        String html = stockPriceSpider.httpClientProcess();
        stockPriceSpider.jsoupProcess(html);
    }

    private String httpClientProcess() {
        String html = "";
        String uri = "http://quote.eastmoney.com/sh600036.html";
        //1.生成httpclient，相当于该打开一个浏览器
        CloseableHttpClient httpClient = HttpClients.createDefault();
        CloseableHttpResponse response = null;
        //2.创建get请求，相当于在浏览器地址栏输入 网址
        HttpGet reques