java去除html标签

最新推荐文章于 2025-03-11 11:01:53 发布

神秘灬メ彬儿

最新推荐文章于 2025-03-11 11:01:53 发布

阅读量531

点赞数 5

文章标签： java maven spring intellij-idea spring boot mybatis

本文链接：https://blog.youkuaiyun.com/weixin_62004562/article/details/143286128

版权

1.使用Jsoup

jsoup是一款Java的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

2.导包

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.15.4</version> //对应的版本号
</dependency>

在对应的工具模块里面的pom文件加上依赖，同时新建一个工具类，方便其他模块进行调用。

2.1新建HtmlUtils类

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class HtmlUtils {
    private HtmlUtils() {
    }

    public static String stripHtml(String html) {
        if (html == null) return null;
        // 使用 Jsoup 解析 HTML
        Document doc = Jsoup.parse(html);
        // 从 Document 中提取文本，并用单个空格替换多个连续的空白字符
        return doc.body().text().replaceAll("\\s+", " ");
    }
}

3.调用

@Override
public Result detail(Long id) {
    Result result = new Result();
    Exhibit detail = exhibitMapper.selectById(id);
    // 去除html标签
    detail.setIntroduce(HtmlUtils.stripHtml(detail.getIntroduce()));
    result.setData(detail);
    return result;
}