Java网页解析之jsoup

本文介绍如何使用Java第三方库Jsoup进行网页数据抓取。以中国银行汇率页面为例,详细展示了通过发送POST请求并使用CSS选择器来定位和提取所需数据的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

官网: https://jsoup.org

java第三方网页解析插件

maven依赖

<dependency>
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.11.3</version>
</dependency>

参考官方例子抓取网页数据
Load a Document from a URL

我们以抓取中行发布的汇率数据为例
中行汇率网址:http://srh.bankofchina.com/search/whpj/search.jsp

通过分析网页源码可知,该页面数据是通过提交表单的方式加载的。
这里写图片描述

private static final String CHINA_BANK_URI = "http://srh.bankofchina.com/search/whpj/search.jsp";

private static void parseHtmlFromURI() throws IOException, ParseException {
    Map<String, String> requestParams = new HashMap<String, String>();
    requestParams.put("erectDate", "2018-07-20");
    requestParams.put("nothing", "2018-07-20");
    requestParams.put("pjname", "1316");
    Document doc = Jsoup.connect(CHINA_BANK_URI).data(requestParams).post();

//  Elements elements = doc.select(".publish table tr:eq(1) td");
    Elements elements = doc.select(".publish table tr:eq(1)");
    elements = elements.select("td");

    for(Element element : elements) {
        System.out.println(element.text());
    }

}

这里是抓取了表格中第一行的数据
这里写图片描述

requestParams中保存了请求数据时需要传递的参数

Document doc = Jsoup.connect(CHINA_BANK_URI).data(requestParams).post();

connect()设置请求路径
data()设置请求需要的参数
post()设置请求方式为post

Elements elements = doc.select(".publish table tr:eq(1)");
elements = elements.select("td");

利用css或与jquery相似的选择器语法获取目标元素
选择器语法详情:Use selector-syntax to find elements

for(Element element : elements) {
    System.out.println(element.text());
}

遍历目标元素集合,获取元素中的值
从元素中获取属性、文本或HTML内容:Extract attributes, text, and HTML from elements

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值