C#、JS利用正则表达式清理HTML标记一例

最新推荐文章于 2025-12-03 14:18:00 发布

最新推荐文章于 2025-12-03 14:18:00 发布 · 98 阅读

文章标签：

#正则表达式 #HTML #C #C++ #C#

C# 专栏收录该内容

55 篇文章

订阅专栏

有些时候，我们对一些内容，清理掉HTML标记，只保留纯内容或一部分内容，例如下面的一段：

对上面的这段代码，我们只要蓝色的内容，也就是“凡是被HTML标记包围的内容，都不要了 ”

C# 的实现方式：

string 
strToBeFiltered = "<SPAN class  =  InsertWordsDisplay>这里不要</span>只要这里<SPAN class=\"InsertWordsDisplay\">不要(*)</span>"
;
Regex 
reg = new 
Regex
("<span\\s+class\\s{0,}=\\s{0,}\"{0,1}InsertWordsDisplay\"{0,1}>.+?</span>"
, RegexOptions
.IgnoreCase | RegexOptions
.Multiline);
string 
strFiltered = reg.Replace(strToBeFiltered, ""
);

上面的 strFiltered 就是最终的结果了

Javascript 的实现方式：

<
script 
type
=
"text/javascript"
>
    
var 
strToBeFiltered 
= 
'<SPAN class  =  InsertWordsDisplay>不要</span>要<SPAN class="InsertWordsDisplay">不要(*)</span>'
;
    
var 
pattern 
= /<
span
\
s
+
class
\
s
{
0
,}=\
s
{
0
,}
"{0,1}InsertWordsDisplay"
{
0
,
1
}\
s
{
0
,}>.+?<\/
span
>/
ig
;
    
var 
strFiltered 
= 
strToBeFiltered
.
replace
(
pattern
, 
''
);
    
alert
(
strFiltered
);

</
script
>