groovy 读取html文件,「Groovy」- 操作 HTML 文档 @20210307

本文介绍了在Groovy中处理HTML文档的两种方法:使用Jsoup库和TagSoup库。通过实例展示了如何解析HTML,查找特定元素如title、heading和a标签,并获取其属性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题描述

在 Jenkins Pipeline 中,我们需要对 HTML 文档进行多种操作。之前使用 XMLParser 及 XMLSlurper 库操作 HTML 文档时遇到很多问题,因为 HTML 文档结构松散(比如没有结束标签等等),不是标准的 XML 文件,因此导致 XML 解析失败。

该笔记将整理:在 Groovy 中,操作 HTML 文档的常用方法

解决方案

方案一、使用 Jsoup 类库

方案二、使用 TagSoup 类库

我们未验证该方法,只是阅读 Grape 手册时发现该方法,这里仅简单记录:

// find the PDF links of the Java specifications

@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2.1')

def getHtml() {

def parser = new XmlParser(new org.ccil.cowan.tagsoup.Parser())

parser.parse("https://docs.oracle.com/javase/specs/")

}

html.body.'**'.a.@href.grep(~/.*\.pdf/).each{ println it }

方案一、使用 Jsoup 类库

简单的入门示例

@Grab(group='org.jsoup', module='jsoup', version='

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值