.NET中获取HTML页面并提取其中的超链接

本文介绍了一种通过C#实现的网页链接抓取方法。该方法包括两个主要步骤:首先利用GetHttp函数从指定URL获取HTML页面内容;接着使用GetLink函数解析HTML并提取其中的超链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

下列的函数分别用于获取HTML页面和提取页面中的超链接。

using System.Net;
using System.IO;
using System.Text;
using System.Text.RegularExpressions;

string[] GetLink(string strHtml)
{
    Regex reg 
= new Regex("href[//s//r]*=[//s//r]*[/"/']{0,1}([^/"/'//s//r>]*)[/"/'//s//r]{0,1}", RegexOptions.IgnoreCase);
    MatchCollection mc 
= reg.Matches(strHtml);
    
if (mc.Count > 0)
    {
        
string[] strHref = new string[mc.Count];
        
int i = 0;
        
foreach (Match m in mc)
        {
            strHref[i] 
= m.Groups[1].Value;
            
++i;
        }
        
return strHref;
    }
    
return null;
}

string GetHttp(string strUrl)
{
    
string strHtml = "";
    WebResponse wrp 
= null;

    
try
    {
        WebRequest wrq 
= WebRequest.Create(strUrl);
        wrq.Timeout 
= 60000;
        wrp 
= wrq.GetResponse();
    }
    
catch (WebException e)
    {

    }
    
catch (Exception e)
    {

    }
    
finally
    {
        
if (wrp != null)
        {
            StreamReader sr 
= new StreamReader(wrp.GetResponseStream(), Encoding.GetEncoding("GB2312"));
            strHtml 
= sr.ReadToEnd();
            sr.Close();
            wrp.Close();
        }
    }

    
return strHtml;
}

可首先使用GetHttp获取指定URL的页面内容,然后将此内容作为参数传给GetLink,GetLink返回的String数组中的每个元素代表一个超链接。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值