利用正则表达式去掉html代码

最新推荐文章于 2021-01-24 18:56:01 发布

原创最新推荐文章于 2021-01-24 18:56:01 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#正则表达式 #html #regex #string

asp.net与C# 专栏收录该内容

8 篇文章

订阅专栏

本文介绍两种使用C#去除HTML标签的方法：一种通过简单的正则表达式匹配<和>之间的内容；另一种采用更复杂的正则表达式来处理多种HTML元素，包括脚本、注释等。

using System.Text.RegularExpressions;//需要引用

// 利用正则表达式去掉"<"和">"之间的内容
private string StripHT(string strHtml)
{
   Regex regex=new Regex("<.+?>",RegexOptions.IgnoreCase);
   string strOutput=regex.Replace(strHtml,"");
   return strOutput;
}

//方法二(不知为什么此方法占用CPU100%)

public static string DropHTML(string strHtml)
{
   string [] aryReg ={
          @"<script[^>]*?>.*?</script>",
          @"<(///s*)?!?((/w+:)?/w+)(/w+(/s*=?/s*(([""''])(//[""''tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>",
          @"([/r])[/s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);",
          @"&(nbsp|#160);",
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(/d+);",
          @"-->",
          @"<!--.*"
         };

   string [] aryRep = {
           "",
           "",
           "",
           "/"",
           "&",
           "<",
           ">",
           " ",
           "/xa1",//chr(161),
           "/xa2",//chr(162),
           "/xa3",//chr(163),
           "/xa9",//chr(169),
           "",
           "/r",
           ""
          };

   string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i<aryReg.Length;i++)
   {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
   }

   strOutput.Replace("<","");
   strOutput.Replace(">","");
   strOutput.Replace("/r","");
   return strOutput;

}