由于在最近的一个项目中,涉及到对页面的链接的抓取。以下是我总结的一些代码,现贴出来与大家分享 :
List<String> titles = new List<string>();
List<String> urls = new List<string>();
String html=null;
String p = @"<a[sS]*?href=(""(?<url>[^""]*)""|'(?<url>[^']*)'|(?<url>[^>s]*))[^>]*?>(?<title>[sS]*?)</a>";
Regex reg = new Regex(p, RegexOptions.IgnoreCase | RegexOptions.Compiled);
MatchCollection ms = reg.Matches(html);
foreach (Match m in ms)
...{
titles.Add(m.Groups["title"].Value);
urls.Add(m.Groups["url"].Value);
}
本文介绍了一种使用正则表达式从HTML页面中提取链接和标题的方法。通过定义匹配模式,可以有效地抓取页面上的所有链接及其对应的文本,并将它们分别存储到两个列表中,便于后续的数据处理和分析。
812

被折叠的 条评论
为什么被折叠?



