用正则彻底去除HTML\CSS\script代码

本文介绍了一个实用的C#方法,用于去除字符串中的HTML标签及特殊字符,确保纯文本内容的准确提取。该方法利用正则表达式逐一对各种HTML元素进行过滤,包括脚本、注释、实体引用等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ExpandedBlockStart.gifContractedBlock.gif/**//// <summary>
InBlock.gif
/// 去除HTML标记
InBlock.gif
/// </summary>
InBlock.gif
/// <param name="Htmlstring">包括HTML的源码 </param>
ExpandedBlockEnd.gif
/// <returns>已经去除后的文字</returns>

None.gifpublic static string NoHTML(string Htmlstring)
ExpandedBlockStart.gifContractedBlock.gif
dot.gif{
InBlock.gif
//删除脚本
InBlock.gif
Htmlstring = Regex.Replace(Htmlstring,@"<script[^>]*?>.*?</script>","",RegexOptions.IgnoreCase);
InBlock.gif
//删除HTML
InBlock.gif
Htmlstring = Regex.Replace(Htmlstring,@"<(.[^>]*)>","",RegexOptions.IgnoreCase);
InBlock.gifHtmlstring 
= Regex.Replace(Htmlstring,@"([\r\n])[\s]+","",RegexOptions.IgnoreCase);
InBlock.gifHtmlstring 
= Regex.Replace(Htmlstring,@"-->","",RegexOptions.IgnoreCase);
InBlock.gifHtmlstring 
= Regex.Replace(Htmlstring,@"<!--.*","",RegexOptions.IgnoreCase);
InBlock.gifHtmlstring 
= Regex.Replace(Htmlstring,@"&(quot|#34);","\"",RegexOptions.IgnoreCase);
InBlock.gif
Htmlstring = Regex.Replace(Htmlstring,@"&(amp|#38);","&",RegexOptions.IgnoreCase);
InBlock.gifHtmlstring 
= Regex.Replace(Htmlstring,@"&(lt|#60);","<",RegexOptions.IgnoreCase);
InBlock.gifHtmlstring 
= Regex.Replace(Htmlstring,@"&(gt|#62);",">",RegexOptions.IgnoreCase);
InBlock.gifHtmlstring 
= Regex.Replace(Htmlstring,@"&(nbsp|#160);"," ",RegexOptions.IgnoreCase);
InBlock.gifHtmlstring 
= Regex.Replace(Htmlstring,@"&(iexcl|#161);","\xa1",RegexOptions.IgnoreCase);
InBlock.gifHtmlstring 
= Regex.Replace(Htmlstring,@"&(cent|#162);","\xa2",RegexOptions.IgnoreCase);
InBlock.gifHtmlstring 
= Regex.Replace(Htmlstring,@"&(pound|#163);","\xa3",RegexOptions.IgnoreCase);
InBlock.gifHtmlstring 
= Regex.Replace(Htmlstring,@"&(copy|#169);","\xa9",RegexOptions.IgnoreCase);
InBlock.gifHtmlstring 
= Regex.Replace(Htmlstring,@"(\d+);","",RegexOptions.IgnoreCase);
InBlock.gif
InBlock.gifHtmlstring.Replace(
"<","");
InBlock.gifHtmlstring.Replace(
">","");
InBlock.gifHtmlstring.Replace(
"\r\n","");
InBlock.gifHtmlstring
=HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();
InBlock.gif
InBlock.gif
return Htmlstring;
ExpandedBlockEnd.gif}

None.gif

转载于:https://www.cnblogs.com/xucanzhao/archive/2006/09/18/507108.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值