public static Regex regexAllLink = new Regex(
@"((HREF)|(SRC))/s*=/s*['""+""/""""+@""]? (?<LINK>[/w/W]+?) "
+ @"['"" + ""/""""+@""/s/>]",
RegexOptions.IgnoreCase
| RegexOptions.CultureInvariant
| RegexOptions.IgnorePatternWhitespace
| RegexOptions.Compiled
);
private string[] ExctractAllLink(string content)
{
#region
ArrayList arrLinks = new ArrayList ();
for(Match m1 = regexAllLink.Match (content ); m1.Success; m1 = m1.NextMatch ())
{
if(m1.Groups["LINK"].Value != null)
{
arrLinks.Add (m1.Groups["LINK"].Value.Replace ("./",""));
}
}
return (string[]) arrLinks.ToArray (typeof(string));
#endregion
}
本文介绍了一种使用正则表达式从文本中提取所有链接的方法。通过定义一个复杂的正则表达式模式来匹配HTML中的href和src属性,并提供了一个示例函数用于实际操作。该方法能够忽略大小写,适用于不同文化环境。

被折叠的 条评论
为什么被折叠?



