C#、JS利用正则表达式清理HTML标记一例

本文介绍了一种使用正则表达式从字符串中移除特定HTML标记的方法,并提供了C#和JavaScript两种语言的实现示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

vs.gif 有些时候,我们对一些内容,清理掉HTML标记,只保留纯内容或一部分内容,例如下面的一段:

<SPAN class  =  InsertWordsDisplay>这里不要</span>只要这里<SPAN class=\"InsertWordsDisplay\">不要(*)</span>

对上面的这段代码,我们只要蓝色的内容,也就是“凡是被HTML标记包围的内容,都不要了

C# 的实现方式:

string strToBeFiltered = "<SPAN class  =  InsertWordsDisplay>这里不要</span>只要这里<SPAN class=\"InsertWordsDisplay\">不要(*)</span>";
Regex reg = new Regex("<span\\s+class\\s{0,}=\\s{0,}\"{0,1}InsertWordsDisplay\"{0,1}>.+?</span>", RegexOptions.IgnoreCase | RegexOptions.Multiline);
string strFiltered = reg.Replace(strToBeFiltered, "");
<script type="text/javascript"><!-- google_ad_client = "pub-5834986413902221"; /* 728x90 */ google_ad_slot = "1368486102"; google_ad_width = 728; google_ad_height = 90; //--> </script><script type="text/javascript" src="http://pagead2.googlesyndication.com/pagead/show_ads.js"> </script>

上面的 strFiltered 就是最终的结果了

 

Javascript 的实现方式:

<script type="text/javascript">
    var strToBeFiltered = '<SPAN class  =  InsertWordsDisplay>不要</span>要<SPAN class="InsertWordsDisplay">不要(*)</span>';
    var pattern = /<span\s+class\s{0,}=\s{0,}"{0,1}InsertWordsDisplay"{0,1}\s{0,}>.+?<\/span>/ig;
    var strFiltered = strToBeFiltered.replace(pattern, '');
    alert(strFiltered);
</script>

希望起个抛砖引玉的作用吧

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值