asp.net如何去掉HTML标记

最新推荐文章于 2021-06-03 03:14:23 发布

最新推荐文章于 2021-06-03 03:14:23 发布 · 96 阅读

文章标签：

#c#

本文介绍了几种有效的C#方法来去除HTML源代码中的标签及特殊字符，确保纯文本内容的准确提取。通过正则表达式匹配，这些方法能够处理各种HTML元素，并还原清晰的文本信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

///<summary>

///去除HTML标记

///</summary>

///<paramname="NoHTML">包括HTML的源码</param>

///<returns>已经去除后的文字</returns>

publicstaticstringNoHTML(stringHtmlstring)
{

//删除脚本

Htmlstring=Regex.Replace(Htmlstring,@"<script[^>]*?>.*?</script>","",RegexOptions.IgnoreCase);

//删除HTML

Htmlstring=Regex.Replace(Htmlstring,@"<(.[^>]*)>","",RegexOptions.IgnoreCase);

Htmlstring=Regex.Replace(Htmlstring,@"([/r/n])[/s]+","",RegexOptions.IgnoreCase);

Htmlstring=Regex.Replace(Htmlstring,@"-->","",RegexOptions.IgnoreCase);

Htmlstring=Regex.Replace(Htmlstring,@"<!--.*","",RegexOptions.IgnoreCase);

Htmlstring=Regex.Replace(Htmlstring,@"&(quot|#34);","/"",RegexOptions.IgnoreCase);

Htmlstring=Regex.Replace(Htmlstring,@"&(amp|#38);","&",RegexOptions.IgnoreCase);

Htmlstring=Regex.Replace(Htmlstring,@"&(lt|#60);","<",RegexOptions.IgnoreCase);

Htmlstring=Regex.Replace(Htmlstring,@"&(gt|#62);",">",RegexOptions.IgnoreCase);

Htmlstring=Regex.Replace(Htmlstring,@"&(nbsp|#160);","",RegexOptions.IgnoreCase);

Htmlstring=Regex.Replace(Htmlstring,@"&(iexcl|#161);","/xa1",RegexOptions.IgnoreCase);

Htmlstring=Regex.Replace(Htmlstring,@"&(cent|#162);","/xa2",RegexOptions.IgnoreCase);

Htmlstring=Regex.Replace(Htmlstring,@"&(pound|#163);","/xa3",RegexOptions.IgnoreCase);

Htmlstring=Regex.Replace(Htmlstring,@"&(copy|#169);","/xa9",RegexOptions.IgnoreCase);

Htmlstring=Regex.Replace(Htmlstring,@"&#(/d+);","",RegexOptions.IgnoreCase);

Htmlstring.Replace("<","");

Htmlstring.Replace(">","");

Htmlstring.Replace("/r/n","");
Htmlstring=HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();

returnHtmlstring;
}

///提取HTML代码中文字的C#函数

///<summary>

///去除HTML标记

///</summary>

///<paramname="strHtml">包括HTML的源码</param>

///<returns>已经去除后的文字</returns>

usingSystem;

usingSystem.Text.RegularExpressions;

publicclassStripHTMLTest{

publicstaticvoidMain(){

strings=StripHTML("<HTML><HEAD><TITLE>中国石龙信息平台</TITLE></HEAD><BODY>faddfs龙信息平台</BODY></HTML>");
Console.WriteLine(s);
}

publicstaticstringStripHTML(stringstrHtml){

string[]aryReg={

@"<script[^>]*?>.*?</script>",

@"<(///s*)?!?((/w+:)?/w+)(/w+(/s*=?/s*(([""'])(//[""'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>",

@"([/r/n])[/s]+",

@"&(quot|#34);",

@"&(amp|#38);",

@"&(lt|#60);",

@"&(gt|#62);",

@"&(nbsp|#160);",

@"&(iexcl|#161);",

@"&(cent|#162);",

@"&(pound|#163);",

@"&(copy|#169);",

@"&#(/d+);",

@"-->",

@"<!--.*/n"
};

string[]aryRep={

"",

"",

"",

"/"",

"&",

"<",

">",

"",

"/xa1",//chr(161),

"/xa2",//chr(162),

"/xa3",//chr(163),

"/xa9",//chr(169),

"",

"/r/n",

""
};

stringnewReg=aryReg[0];

stringstrOutput=strHtml;

for(inti=0;i<aryReg.Length;i++){

Regexregex=newRegex(aryReg[i],RegexOptions.IgnoreCase);
strOutput=regex.Replace(strOutput,aryRep[i]);
}

strOutput.Replace("<","");

strOutput.Replace(">","");

strOutput.Replace("/r/n","");

returnstrOutput;
}
}

写一个静态方法
移除HTML标签
#region移除HTML标签

/**////<summary>

///移除HTML标签

///</summary>

///<paramname="HTMLStr">HTMLStr</param>

publicstaticstringParseTags(stringHTMLStr)
{

returnSystem.Text.RegularExpressions.Regex.Replace(HTMLStr,"<[^>]*>","");
}

#endregion
取出文本中的图片地址#region取出文本中的图片地址

/**////<summary>

///取出文本中的图片地址

///</summary>

///<paramname="HTMLStr">HTMLStr</param>

publicstaticstringGetImgUrl(stringHTMLStr)
{

stringstr=string.Empty;

stringsPattern=@"^<img/s+[^>]*>";

Regexr=newRegex(@"<img/s+[^>]*/s*src/s*=/s*([']?)(?<url>/S+)'?[^>]*>",
RegexOptions.Compiled);
Matchm=r.Match(HTMLStr.ToLower());

if(m.Success)

str=m.Result("${url}");

returnstr;
}

#endregion