去除网页内容中的一些样式,包含图片的地址,样式,空格,回车,还有其他的一些特殊转义符

本文介绍了一种去除网页中图片和样式的方法,通过正则表达式过滤文本中的尖括号及样式内容,同时处理了一些特殊转义字符,如'&'和换行制表符。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

去除网页中的一些样式

public static String removeImgUrl(String str)
{
    if (str == null)
    {
        return "";
    }
    else
    {
        // 可能存在中文的尖括号或者英文的尖括号,所以需要过滤两次
        return str.replaceAll("&lt", "<").replaceAll("&gt", ">")
                .replaceAll("<img.*[^>]*>", "")
                .replaceAll("<img.*[^>]*>", "").replaceAll("amp;", "")
                .replaceAll("nbsp;", "").replaceAll("&;", "")
                .replaceAll("[\\s*\\t*\\n\\r]", "");
    }
}
// 过滤文本中的尖括号及中间的内容(主要是用于过滤样式),还有一些特殊的转义符:“&amp” 替换为“&” (&amp转义之后为&);
// “&;”替换为“”; 换行制表符回车等都替换为“”
public static String removeTextFormatAndImgUrl(String str)
{
    if (str == null)
    {
        return "";
    }
    else
    {
        // 可能存在中文的尖括号或者英文的尖括号,所以需要过滤两次
        return str.replaceAll("&lt", "<").replaceAll("&gt", ">")
                .replaceAll("<[^>]*>", "").replaceAll("<[^>]*>", "")
                .replaceAll("amp;", "").replaceAll("nbsp;", "")
                .replaceAll("&;", "").replaceAll("&quot;", "\"")
                .replaceAll("[\\s*\\t*\\n\\r]", "");//
    }
}
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值