「Groovy」- 操作 HTML 文档 @20210125

本文介绍如何使用Jsoup处理HTML文档,解决XML解析库面对松散HTML结构时的问题。包括Jsoup的基本用法、文档解析、元素选取等关键操作。

问题描述

Jenkins Pipeline 中,我们需要对 HTML 文档进行多种操作。之前使用 XMLParser 及 XMLSlurper 库操作 HTML 文档时遇到很多问题,因为 HTML 文档结构松散(比如没有结束标签等等),不是标准的 XML 文件,因此导致 XML 解析失败。

我们现在使用 Jsoup 操作 HTML 文档,该笔记将整理:使用 Jsoup 操作 HTML 文档的常用方法

相关链接

项目主页:jsoup Java HTML Parser, with the best of HTML5 DOM methods and CSS selectors.
获取文档的 DOM 对象:Parsing and traversing a Document: jsoup Java HTML parser
使用选择器选择元素:Use selector-syntax to find elements: jsoup Java HTML parser
元素的查找、获取、操作:Use DOM methods to navigate a document: jsoup Java HTML parser

简单的入门示例

@Grab(group='org.jsoup', module='jsoup', version='1.10.1')
import org.jsoup.Jsoup

def htmlString = "<html><head><title>Title of Page</title></></head></html>"
def htmlDocument = Jsoup.parse(htmlString)
println htmlDocument.getElementsByTag("title").text()

注意事项

如果可能,尽量不要使用任何 XML 类库操作 HTML 文本。

参考文献

WikiNotes/操作 HTML 文档
Html Slurping in Groovy
Use DOM methods to navigate a document

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值