.NET Regular Expressions

本文介绍了一种使用C#和正则表达式去除HTML中的空白字符、回车和换行的方法。通过三个正则表达式的组合应用,有效地清理了HTML源码中的多余空白字符,有助于减少文件大小并提高解析效率。
HTML去空白回车换行
private static readonly Regex REGEX_LINE_BREAKS = new Regex(@"\n\s*", RegexOptions.Compiled);
private static readonly Regex REGEX_LINE_SPACE = new Regex(@"\n\s*\r", RegexOptions.Compiled);
private static readonly Regex REGEX_SPACE = new Regex(@"( )+", RegexOptions.Compiled);

var targetHtml = REGEX_SPACE.Replace(REGEX_LINE_SPACE.Replace(REGEX_LINE_BREAKS.Replace(baseInfoHtml, ""), ""), " ");

Ref:正则表达式30分钟入门教程

Ref:常用正则表达式

Ref:Matching Balanced Constructs with .NET Regular Expressions

Ref:RegexOne

Ref:RegExLib

Ref:Regex101

Ref:http://regexlib.com/Default.aspx

转载于:https://www.cnblogs.com/ncore/archive/2012/12/11/2813105.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值