Java后台怎么处理带HTML标签(富文本)数据的两种方法

本文介绍两种处理富文本数据以生成文章摘要的方法:一是使用HtmlParser插件进行HTML解析;二是通过正则表达式直接去除HTML标签。第一种方法适合需要深入解析HTML文档的情况,而第二种方法简单快捷,适用于只需去除标签的情况。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言:本人在实现业务逻辑的时候,需要在后台把带HTML标签(富文本)数据的文章截取成文章的摘要,涉及到怎么处理带HTML标签数据 ,在网上一共找到了两种解决方法:

1、调用HtmlParser插件

HtmlParser 简介

htmlparser是一个纯的java写的html解析的库,主要用于改造或提取html。用来分析抓取到的网页信息是个不错的选择,遗憾的是参考文档太少。
项目主页:http://htmlparser.sourceforge.net/
API文档: http://htmlparser.sourceforge.net/javadoc/index.html
参考博客:http://blog.youkuaiyun.com/fancy3013/article/details/50965112

2、引用一个方法直接去掉HTML标签

这也是我在项目所用的,是别人写好的一个方法。

public String parseHtml(String html,int length) {
        
    	if(html == null || html == "") {
    		return html = "空";
		}else {
			if(html.length()<length){
	            return html;
	        }else {
	            /*
	             * <.*?>为正则表达式,其中的.表示任意字符,*?表示出现0次或0次以上,此方法可以去掉双头标签(双头针对于残缺的标签)
	             * "<.*?"表示<尖括号后的所有字符,此方法可以去掉残缺的标签,及后面的内容
	             * " ",若有多种此种字符,可用同一方法去除
	             */
	            html = html.replaceAll("<.*?>", " ").replaceAll("", "");
	            html = html.replaceAll("<.*?", "");
	            return (html.substring(0, length) + "...");        	
	        }
		}
    }

参考博客:https://www.cnblogs.com/cnsevennight/p/4468055.html

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值