c#获取网页源代码的几种方法

最新推荐文章于 2017-10-07 09:30:12 发布

原创最新推荐文章于 2017-10-07 09:30:12 发布 · 3.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#c# #string #html #byte #url #null

asp.net 专栏收录该内容

7 篇文章

订阅专栏

本文介绍了两种不同的网页内容抓取方法。第一种方法使用WebClient类下载网页内容，并将其转换为字符串。第二种方法通过MSXML2.XMLHTTP发送HTTP请求，设置Referer头和Content-Type，获取并返回网页源代码。

1.
private string getHtml(string url)
  {

   WebClient myWebClient = new WebClient();
   byte[] myDataBuffer = myWebClient.DownloadData (url);
   return Encoding.Default.GetString(myDataBuffer);

  }

2.
  public string getHttp(string HttpUrl,string RefererUrl)
  {
   string html = "";
   try
   {
    MSXML2.XMLHTTP Http = new MSXML2.XMLHTTPClass();
    Http.open("GET",HttpUrl,false,"admin","admin");
    Http.setRequestHeader("Referer",RefererUrl);
    //Http.setRequestHeader("Referer",RefererUrl);
    Http.setRequestHeader("Content-Type", "text/html;charset=gb2312");
    Http.send("");

    html = Encoding.Default.GetString((byte[])Http.responseBody);
    Http = null;

   }
   catch
   {

   }
   return html;
  }