倔强的网站数据抓取,关键时刻还需Webbrowser显身手

本文介绍了三种网络数据抓取技术:使用WebClient类、发送HTTP请求及利用WebBrowser类加载网页。通过具体示例展示了每种方法的核心代码实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

从网络抓取数据的方法我知道的就一下几种。

1. 首先我用WebClient去请求此地址,核心代码如下:

1  WebClient wc = new WebClient();
2  wc.Encoding = Encoding.UTF8;
3 string str = wc.DownloadString("http://typhoon.weather.gov.cn/Typhoon/data/20130041.xml");

2.换个方法,这次我选择使用Http请求去获取,核心代码如下:

复制代码
        /// <summary>
        /// 传入get请求地址,和页面编码格式,返回该页面html源文件,返回wrong则出现异常。
        /// </summary>
        /// <param name="tUrl">传入url</param>
        /// <param name="encodeType">传入 页面的编码格式</param>
        /// <returns></returns>
        internal static string Get_HttpAll(string tUrl, string encodeType)
        {
            string strResult;
            try
            {
                HttpWebRequest hwr = CreateHttpWebRequest(tUrl);
                hwr.Timeout = 19990;
                CookieContainer cc = new CookieContainer();
                hwr.CookieContainer = cc;
                HttpWebResponse hwrs = (HttpWebResponse)hwr.GetResponse();
                Stream myStream = hwrs.GetResponseStream();
                Encoding encoding = Encoding.GetEncoding(encodeType);
                StreamReader sr = new StreamReader(myStream, encoding);
                strResult = sr.ReadToEnd();
                hwrs.Close();
            }
            catch
            {
                strResult = "wrong";
            }
            return strResult;
        }
复制代码
string xmlStr = Common.Get_HttpAll("http://typhoon.weather.gov.cn/Typhoon/data/20130041.xml", "utf-8");


3.选择使用了Webbrowser类去获取数据,核心代码如下利用Webbrowser加载文档完毕后的状态进行判断然后获取文档):


复制代码
 private void Delay(int Millisecond)
        {
            DateTime current = DateTime.Now;
            while (current.AddMilliseconds(Millisecond) > DateTime.Now)
            {
                Application.DoEvents();
            }
            return;
        }

WebBrowser wb = new WebBrowser();
string xmlStr = string.Empty;
wb.Navigate("http://typhoon.weather.gov.cn/Typhoon/" + dataUrl);
                while (true)
                {
                    Delay(50);//延迟50毫秒
                    if (wb.ReadyState == WebBrowserReadyState.Complete)//判断文档是否加载完毕
                    {
                        if (!wb.IsBusy)
                        {
                            xmlStr = wb.Document.Body.InnerText;
                            break;
                        }
                    }
                    continue;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值