C#中利用正则表达式提取网文链接

最新推荐文章于 2024-02-26 08:59:06 发布

原创最新推荐文章于 2024-02-26 08:59:06 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#正则表达式 #c# #string #regex #null

.NET技术专栏收录该内容

5 篇文章

订阅专栏

本文介绍了一种使用正则表达式从文本中提取所有链接的方法。通过定义一个复杂的正则表达式模式来匹配HTML中的href和src属性，并提供了一个示例函数用于实际操作。该方法能够忽略大小写，适用于不同文化环境。

public static Regex regexAllLink = new Regex(
   @"((HREF)|(SRC))/s*=/s*['""+""/""""+@""]? (?<LINK>[/w/W]+?) "
   + @"['"" + ""/""""+@""/s/>]",
   RegexOptions.IgnoreCase
   | RegexOptions.CultureInvariant
   | RegexOptions.IgnorePatternWhitespace
   | RegexOptions.Compiled
   );

  private string[] ExctractAllLink(string content)
  {
   #region
   ArrayList arrLinks = new ArrayList ();
   for(Match m1 = regexAllLink.Match (content ); m1.Success; m1 = m1.NextMatch ())
   {
    if(m1.Groups["LINK"].Value != null)
    {
     arrLinks.Add (m1.Groups["LINK"].Value.Replace ("./",""));
    }
   }
   return (string[]) arrLinks.ToArray (typeof(string));
   #endregion
  }