html转为纯文本并且保留换行,使用jsoup将html转换为纯文本时保留换行符

本文介绍了三种使用Jsoup将HTML转换为纯文本的方法,并且在转换过程中保留换行符。方法一通过操作DOM并替换特定标签实现;方法二通过设置Whitelist和OutputSettings来保留换行;方法三结合了保留BR和P标签的HTML与不重新格式化的纯文本输出。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用如下代码将文本转换时

public class NewClass {

public String noTags(String str){

return Jsoup.parse(str).text();

}

public static void main(String args[]) {

String strings=""-//W3C//DTD HTML 4.0 Transitional//EN \">" +

"

hello world

yo googlez

";

NewClass text = new NewClass();

System.out.println((text.noTags(strings)));

}

输出结果:

hello world yo googlez

但我想输出如下结果:

hello world

yo googlez

方法一

public static String br2nl(String html) {

if(html==null)

return html;

Document document = Jsoup.parse(html);

document.outputSettings(new Document.OutputSettings().prettyPrint(false));//makes html() preserve linebreaks and spacing

document.select("br").append("\\n");

document.select("p").prepend("\\n\\n");

String s = document.html().replaceAll("\\\\n", "\n");

return Jsoup.clean(s, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));

}

它满足以下要求:

如果原始html包含换行符(\n),则会保留它

如果原始html包含br或p标签,它们将被转换为换行符(\n)。

方法二

Jsoup.clean(unsafeString, "", Whitelist.none(), new OutputSettings().prettyPrint(false));

我们在这里使用这种方法:

public static String clean(String bodyHtml,

String baseUri,

Whitelist whitelist,

Document.OutputSettings outputSettings)

通过传递Whitelist.none(),我们确保删除所有HTML。

通过传递new OutputSettings().prettyPrint(false),我们确保不重新格式化输出并保留换行符。

方法三

public static String cleanPreserveLineBreaks(String bodyHtml) {

//获得带有保留的br和p标签的漂亮打印的html

String prettyPrintedBodyFragment = Jsoup.clean(bodyHtml, "", Whitelist.none().addTags("br", "p"), new OutputSettings().prettyPrint(true));

// 通过禁用prettyPrint获得带有保留的换行符的纯文本

return Jsoup.clean(prettyPrintedBodyFragment, "", Whitelist.none(), new OutputSettings().prettyPrint(false));

}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值