ant脚本打包缺失html文件,使用Ant脚本解析HTML

这篇博客介绍了如何利用Groovy脚本结合ANT和HTMLCleaner库从网页中提取徽标URL。作者展示了如何解析HTML,转换为XML,然后通过DOM树遍历获取目标URL。此外,还提到了Ivy作为依赖管理工具的作用,用于下载Groovy和HTMLCleaner等库。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

如其他答案中所述,您无法在“纯”

XML中执行此操作.你需要嵌入一种编程语言.我个人最喜欢的是Groovy,它的

integration with ANT非常棒.

这是一个从groovy主页检索徽标URL的示例:

parse:

print:

[echo]

[echo] Logo URL: http://groovy.codehaus.org/images/groovy-logo-medium.png

[echo]

build.xml文件

Build使用ivy plug-in来检索所有第三方依赖项.

import org.htmlcleaner.*

def address = 'http://groovy.codehaus.org/'

// Clean any messy HTML

def cleaner = new HtmlCleaner()

def node = cleaner.clean(address.toURL())

// Convert from HTML to XML

def props = cleaner.getProperties()

def serializer = new SimpleXmlSerializer(props)

def xml = serializer.getXmlAsString(node)

// Parse the XML into a document we can work with

def page = new XmlSlurper(false,false).parseText(xml)

// Retrieve the logo URL

properties["logo"] = page.body.div[0].div[1].div[0].div[0].div[0].img.@src

Logo URL: ${logo}

解析逻辑是纯粹的groovy编程.我喜欢你轻松浏览页面DOM树的方式:

// Retrieve the logo URL

properties["logo"] = page.body.div[0].div[1].div[0].div[0].div[0].img.@src

的ivy.xml

Ivy与Maven类似.它管理您对第三方软件的依赖性.在这里它被用来拉下Groovy和Groovy逻辑正在使用的HTMLCleaner库:

如何安装常春藤

Ivy是标准的ANT插件.下载它的jar并将其放在以下目录之一:

$HOME/.ant/lib

$ANT_HOME/lib

我不知道为什么ANT项目不附带常春藤.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值