groovy 读取html文件,「Groovy」- 操作 HTML 文档 @20210307

最新推荐文章于 2021-06-27 22:51:35 发布

哈里叔叔

最新推荐文章于 2021-06-27 22:51:35 发布

阅读量855

点赞数

文章标签： groovy 读取html文件

本文介绍了在Groovy中处理HTML文档的两种方法：使用Jsoup库和TagSoup库。通过实例展示了如何解析HTML，查找特定元素如title、heading和a标签，并获取其属性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题描述

在 Jenkins Pipeline 中，我们需要对 HTML 文档进行多种操作。之前使用 XMLParser 及 XMLSlurper 库操作 HTML 文档时遇到很多问题，因为 HTML 文档结构松散(比如没有结束标签等等)，不是标准的 XML 文件，因此导致 XML 解析失败。

该笔记将整理：在 Groovy 中，操作 HTML 文档的常用方法

解决方案

方案一、使用 Jsoup 类库

方案二、使用 TagSoup 类库

我们未验证该方法，只是阅读 Grape 手册时发现该方法，这里仅简单记录：

// find the PDF links of the Java specifications

@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2.1')

def getHtml() {

def parser = new XmlParser(new org.ccil.cowan.tagsoup.Parser())

parser.parse("https://docs.oracle.com/javase/specs/")

}

html.body.'**'.a.@href.grep(~/.*\.pdf/).each{ println it }

方案一、使用 Jsoup 类库

简单的入门示例

@Grab(group='org.jsoup', module='jsoup', version='

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

哈里叔叔

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

如何使用 Groovy 操作文件？

qiaotl的博客

09-22

681

上一节课程中学习了如何通过 Groovy 对数据库数据进行增删该查，本次课程将带领大家学习如何通过 Groovy 操作各类文件。例如读取 CSV、yml、JSON、XML、TXT 文件，因为接口测试大部分情况下都会遇到处理各类文件场景。为了完成本次课程目标，我按文件类型分为了 5 个 Task 读取写入 TXT 文件读取 yml 文件读取 CSV 文件读取 JSON 文件读取 XML ...

Groovy读取文件夹目录结构，并生成.sql文件

xydzjnq的博客

01-18

1395

最近编辑于2019年1月18日最近在读一个讲解flutter基本组件，项目地址https://github.com/alibaba/flutter-go?utm_source=androidweekly.io&utm_medium=website，当然想着一边看一边抄才能有所了解。但是在抄的过程中发现，他主要基于一个数据库文件来展示各个widget之间的组织结构的，那我如果直接把它的a...

参与评论您还未登录，请先登录后发表或查看评论

Groovy—操作 HTML 文档

k4nz

04-23

497

原文地址：Groovy—操作 HTML 文档（永久地址，保存网址不迷路 ????）问题描述在 Jenkins Pipeline 中，我们需要对 HTML 文档进行多种操作。之前使用 XMLParser 及 XMLSlurper 库操作 HTML 文档时遇到很多问题，因为 HTML 文档结构松散（比如没有结束标签等等），不是标准的 XML 文件，因此导致 XML 解析失败。该笔记将整理：在 Groovy 中，操作 HTML 文档的常用方法解决方案方案一、使用 Jsoup 类库项目

angularjs php 登陆,基于AngularJS+HTML+Groovy实现登录功能_AngularJS

weixin_30990821的博客

03-24

212

AngularJS是开发基于浏览器的响应式RWD应用程序的一个前端MVC框架，由谷歌最初开发的开源项目，干净的架构吸引了大量粉丝，适合建立CRUD类型的业务应用程序，并不适合开发游戏等应用，使用声明性编程的用户界面和命令式编程的逻辑，支持现代桌面和移动浏览器 Internet Explorer版本8.0及以上。AngularJS是一款客户端MVC的javascript框架，而客户端MVC代表...

groovy 读取html文件,Groovy漂亮打印XmlSlurper从HTML输出？

weixin_35936248的博客

06-19

333

我正在使用几个不同的版本来做到这一点，但所有似乎都会导致此错误：Groovy漂亮打印XmlSlurper从HTML输出？[致命错误]：1：171：前缀“xmlns”不能显式绑定到任何名称空间; “xmlns”的命名空间也不能明确地绑定到任何前缀。我加载HTML为：// Load html filedef fis=new FileInputStream("2.html")def html=new X...

groovy 读取html文件,Get html body from response in groovy

weixin_42333009的博客

06-27

276

I'm trying to see if a specific string exists in an html page but I can't seem to find an easy way to get the string that represents the body.I've attempted:http.request(Method.GET, { req ->uri.pat...

以Groovy的方式更稳定地解析HTML

流水不争先

07-23

6301

原文：Robust HTML parsing the Groovy way

Java调用Groovy，实时动态加载数据库groovy脚本

06-08

Java代码会连接到MongoDB，找到这个文档，读取Groovy脚本，然后使用GroovyClassLoader进行加载和执行。动态加载数据库中的Groovy脚本带来的优势包括： - **热部署**：当Groovy脚本更新时，无需重新编译或重启Java...

在* .docx文档中使用Groovy脚本

04-03

1. **数据驱动文档**：如果你需要创建大量类似但细节不同的文档，如报告或合同，Groovy可以读取数据库或其他数据源，根据数据动态填充文档内容。 2. **计算和逻辑**：在表格中进行复杂的计算，比如总和、平均值、...

groovy基本语法--XML及HTML

u011861874的博客

11-02

1341

1、groovy对XML及HTML的支持 Groovy 引入了一些全新的、更加合理的方法来创建和处理 XML及HTML。代码更加简洁，更具表达性。 XML标记构建器 Groovy支持基于树的标记生成器BuilderSupport，它可以被子类化以生成各种树结构对象表示 XML解析器 - Groovy XmlParser类使用一个简单的模型来将XML文档解析为Node实例的树。 ...

groovy解析HTML 隐藏层,Groovy - 面向对象(Object Oriented)

weixin_39922769的博客

06-04

165

Groovy - 面向对象(Object Oriented)在Groovy中，与任何其他面向对象语言一样，有类和对象的概念来表示编程语言的面向对象性质。 Groovy类是数据的集合以及对该数据进行操作的方法。同时，类的数据和方法用于表示来自问题域的一些现实世界对象。Groovy中的类声明状态(数据)和该类定义的对象的行为。因此，Groovy类描述了该类的实例字段和方法。以下是Groo...

Groovy 使用完全解析

weixin_33843409的博客

04-21

970

转载请标明出处：http://blog.youkuaiyun.com/zhaoyanjun6/article/details/70313790 本文出自【赵彦军的博客】概念 Groovy 配置环境变量开发工具 IntelliJ IDEA Groovy 语法基本语法定义变量定义函数断言 assert 循环 fo...

Groovy脚本检查html坏链接

一个码农的博客

11-01

2443

这些天在搞Gradle翻译，因为原译者在翻译的同时也把文件进行了整理，并且把翻译过的章节放到新的文件夹中，导致可能有些超链接未改正过来变成死链接。本想在网上找个工具来检查的，百度了几个工具要么太大要么要安装，懒得弄那么多，于是用Groovy写了一个脚本。此脚本仅检查本地超链接，代码如下： if (args.size() != 1) { printf("Please specify a

以Groovy的方式更稳定地解析HTML（转载）

weixin_34355559的博客

05-15

456

如何使用Groovy解析无法通过XML验证的HTML代码原文：Robust HTML parsing the Groovy way 用Groovy解析XML很简单，只要确保输入的数据格式良好就能运行的很好——但现实并非总是能保证这一点。视考虑HTML代码，想让它们通过XML的验证总是困难重重，这就需要 TagSoup 来拯救了。主要的阻碍来自于： DTD 未闭合的标签让我...

groovy解析HTML 隐藏层,Gradle学习笔记之Groovy

weixin_35452206的博客

06-04

300

Gradle是一个基于Apache Ant和Apache Maven概念的项目自动化构建工具。它使用一种基于Groovy的特定领域语言(DSL)来声明项目设置，抛弃了基于XML的各种繁琐配置。Gradle的构建脚本build.gradle和setting.gradle都是可执行的Groovy脚本(不过它们不可以在Groovy运行时环境下运行, 由于上述.gradle文件都需要调用gradle的ap...

编写爬虫程序的神器 - Groovy + Jsoup + Sublime

weixin_34280237的博客

07-15

166

写过很多个爬虫小程序了，之前几次主要用C# +Html Agility Pack来完成工作。由于.NET BCL只提供了"底层"的HttpWebRequest和"中层"的WebClient，故对HTTP操作还是需要编写很多代码的。加上编写C#需要使用Visual Studio这个很"重"的工具，开发效率长期以来处于一种低下的状态。最近项目里面接触到了一种神奇的语言Groovy-- 一...

Groovy解析生成标记语言XML HTML

Code Of Life

09-09

543

Groovy 把使用 XML 的美妙和简易性推向了极致，这就是 GroovyMarkup，它不仅简化了 SAX、DOM 操作，并且把这一理念引入到了 Swing、Swt 界面绘制领域中，Ant、Maven 构建脚本生成中；甚至铺散到更广阔的领域。 [list] [*] groovy.xml.MarkupBuilder -- 将你的对象序列化成 XML 或 XHTML [*] groovy...

groovy将word文档转为html

huncent

01-27

240

[code="java"] import org.codehaus.groovy.scriptom.ActiveXObject import java.io.File class word2html { static void main(args) { if(args) { def word = new ActiveXObject("Word.Appli...

Groovy 模版引擎

weixin_30887919的博客

04-10

372

1. Introduction Groovy supports multiple ways to generate text dynamically including GStrings, printf and MarkupBuilder just to name a few. In addition to these, there is a dedicated template framew...

Groovy项目中读取Apache格式日志文件以获取指标

资源摘要信息:"本篇文档详细介绍了如何在使用Groovy语言开发的项目中获取指标并读取日志文件。文档首先指出了项目需要获取的指标类型，并强调了读取日志文件的重要性。随后，文档详细解释了Apache审计格式的日志文件...