C#用正则表达式获取网页源代码标签的属性或值-优快云博客

本文介绍两种使用C#与正则表达式从HTML源代码中提取标签值和属性的方法。第一种方法用于获取指定标签内的文本内容；第二种方法用于提取标签中的特定属性值。

整理两个在C#中，用正则表达式获取网页源代码标签的属性或值的方法：

1、获取标签中的值： <a href="www.youkuaiyun.com" class="main" >优快云</a>

/// <summary>
        /// 获取字符中指定标签的值
        /// </summary>
        /// <param name="str">字符串</param>
        /// <param name="title">标签</param>
        /// <returns>值</returns>
        public static string GetTitleContent(string str, string title)
        {
            string tmpStr = string.Format("<{0}[^>]*?>(?<Text>[^<]*)</{1}>", title, title); //获取<title>之间内容

            Match TitleMatch = Regex.Match(str, tmpStr, RegexOptions.IgnoreCase);

            string result = TitleMatch.Groups["Text"].Value;
            return result;
        }

2、获取标签中的属性： <a href="www.youkuaiyun.com" class="main">优快云</a>

/// <summary>
        /// 获取字符中指定标签的值
        /// </summary>
        /// <param name="str">字符串</param>
        /// <param name="title">标签</param>
        /// <param name="attrib">属性名</param>
        /// <returns>属性</returns>
        public static string GetTitleContent(string str, string title,string attrib)
        {

            string tmpStr = string.Format("<{0}[^>]*?{1}=(['\"\"]?)(?<url>[^'\"\"\\s>]+)\\1[^>]*>", title, attrib); //获取<title>之间内容

            Match TitleMatch = Regex.Match(str, tmpStr, RegexOptions.IgnoreCase);

            string result = TitleMatch.Groups["url"].Value;
            return result;
        }

转载于:https://www.cnblogs.com/sntetwt/p/3884657.html