java xml编程 (一)

本文介绍如何使用jtidy将HTML文件转换为XML,并利用DOM4j进行XML文档的创建、读取、修改及删除操作。具体包括通过jtidy修正HTML语法错误以生成规范的XML文档,以及利用DOM4j API实现对XML文档的节点及属性的增删改查。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.HTML文件转成XML文件(使用jtidy)
先运用java扩展标准库类org.w3c.tidy.Tidy中的方法实现URL网页地址的获取和转化
再运用缓冲区输入输出流类BufferedInputStream和FIleOutputStream类将HTML文件中的数据读取转化成XML文档
注:jtidy提供HTML语法检查和HTML的完美输出。当JTidy发现任何不匹配或遗漏的闭合标记,将纠正这些标记,输出一个格式良好的XML文档。只要获得相应的输入/输出并调用
parse()方法便可将HTML文件转换为XML文件。
二.DOM4j解析xml文档
DOM4j能够读取,修改以及删除xml文档中的内容。它完全支持DOM,SAX以及JAXP,
1.创建xml文档。
(1)创建document文件对象并添加元素
使用document=DocumentHelper.createDocument()方法创建document对象,
然后用rootElement=document.addElement("根节点名")向该对像添加元素,
再用element=rootElement.addElement("节点名")可向根节点添加元素;
用element=element.addElement("节点名")可递归向节点添加元素;
用element.addAttribute("属性名", "属性值")可向元素添加属性信息;
用element.setText(“内容”)可向节点添加内容,添加后如下:<节点>内容</节点>
element还有很多其他方法,参看api
(2)将document对象写入xml文档
XMLWriter writer=new XMLWriter(new FileWriter(new File(name)));
writer.write(document);
writer.close();
2.使用dom4j删除xml中的节点及属性
DOM4j支持Xpath,比如:xml中节点顺序如下:<trees><tree></tree></trees> 则可用Document文档对象的selectNodes(“/trees/tree/@id”)方法来获得id属性的列表集list,再循环获得每个id属性的信息。找到指定的id属性。根据getParent()方法获得该属性所在的节点,根据remove()方法移除该节点。实例代码如下:
List list=document.selectNodes("/trees/tree/@id"); /*@表示利用的是属性,此时list中的是属性,从下文中的循环中可看出,如果没有@的话,则表示节点,list中存放的将会是xml节点。*/
Iterator iterator=list.iterator();
while(iterator.hasNext())
{
Attribute attribute=(Attribute)iterator.next();
if(attribute.getValue().equals(id)); //id是要删除的
{
Element element = attribute.getParent();
root.remove(element);
}
}
再用上文docunment对象写入文档的方法将document对象写入xml文件
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值