java 文本转 html_在Java中轻松将HTML格式文本转换为纯文本(保留换行)

本文介绍如何使用Jsoup库解析HTML并转换为纯文本,包括引入依赖、代码实现和测试示例。重点在于使用StringUtils和Jsoup的配合来清理HTML,去除多余标签,便于阅读和处理。

#第一步:引入Jsoup和lang和lang3的依赖:

Jsoup是HTML解析器lang和lang3这两个包里有转换所需的工具类

< groupId > org.jsoup groupId>

< artifactId > jsoup artifactId>

< version > 1.11 .3 < / version >

< / dependency >

< dependency >

< groupId > commons - lang groupId>

< artifactId > commons - lang artifactId>

< version > 2.6 < / version >

< / dependency >

< dependency >

< groupId > org.apache.commons groupId>

< artifactId > commons - lang3 artifactId>

< version > 3.4 < / version >

< / dependency>

复制代码

#第二步:直接使用即可:

import org.apache.commons.lang3.StringUtils;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.safety.Whitelist;

/**

* @author Piconjo

*/

public class Html2PlainText {

public static String convert( String html )

{

if ( StringUtils.isEmpty( html ) )

{

return("");

}

Documentdocument= Jsoup.parse( html );

Document.OutputSettings outputSettings= new Document.OutputSettings().prettyPrint( false );

document.outputSettings( outputSettings );

document.select( "br" ).append( "\\n" );

document.select( "p" ).prepend( "\\n" );

document.select( "p" ).append( "\\n" );

StringnewHtml= document.html().replaceAll( "\\\\n", "\n" );

StringplainText= Jsoup.clean( newHtml, "", Whitelist.none(), outputSettings );

Stringresult= StringEscapeUtils.unescapeHtml( plainText.trim() );

return(result);

}

}

复制代码

#使用测试:852d6cf9065d64709c618bf8d36ad660.png

ad67c638ed50caa5580f8723cbea1109.png

感谢阅读 喜欢学习的朋友们可以关注下小编 小编会定期更新优质文章。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值