.net爬虫程序

根据http协议原理,客户端发送请求报文,服务器端接受到报文请求后返回响应报文,响应报文里就存放着我们需要信息。(详细的原理请自行查找相关文件)

 

因此,我们只需要用报文分析软件,分析报文内容,再利用程序伪造发送请求报文,接收响应报文就可以达到后台自动抓取某网站数据的目的。

 

.net提供了相关的报文类 HttpWebRequest 和 HttpWebResponse,利用这两个类就能完成相关程序,很简单吧。

 

下面我写的一个自动上某网站下载图片的demo程序,就像一条虫子,在某网站不断攀爬,吞吃数据,所以起名叫爬虫程序,写的比较粗糙,只作学习理解用。

 

自己封装的报文收发类

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Net;
using System.IO;
using System.Web;

namespace HttpWeb
{
    public class Proxy
    {
        private CookieContainer m_cookieContainer = null;
        private HttpWebRequest request = null;
        private HttpWebResponse response = null;

        //保存回应报文
        public HttpWebResponse Response
        {
            get { return response; }
        }

        public Proxy()
        {
            m_cookieContainer = new CookieContainer();
        }

        //向val_url地址post报文,val_poststr 必须是已encode后的字符串
        public void PostHttp(Uri val_url, string val_PostStr)
        {
            request = (HttpWebRequest)HttpWebRequest.Create(val_url);
            request.ContentType = "application/x-www-form-urlencoded";
            request.Method = "POST";
            byte[] byteRequest = Encoding.Default.GetBytes(val_PostStr);
            request.ContentLength = byteRequest.Length;
            request.CookieContainer = m_cookieContainer;
            Stream stream = request.GetRequestStream();
            stream.Write(byteRequest, 0, byteRequest.Length);
            stream.Close();
            response = (HttpWebResponse)request.GetResponse();
            m_cookieContainer.Add(response.Cookies);

        }

        //向val_url地址post报文,val_poststr 是未encode字符串,enc 为encode编码
        public void PostHttp(Uri val_url, string val_PostStr, Encoding enc)
        {
            request = (HttpWebRequest)HttpWebRequest.Create(val_url);
            request.ContentType = "application/x-www-form-urlencoded";
            request.Method = "POST";
            string encPostStr = EncodeStr(val_PostStr, enc);
            byte[] byteRequest = Encoding.Default.GetBytes(encPostStr);
            request.ContentLength = byteRequest.Length;
            request.CookieContainer = m_cookieContainer;
            Stream stream = request.GetRequestStream();
            stream.Write(byteRequest, 0, byteRequest.Length);
            stream.Close();
            response = (HttpWebResponse)request.GetResponse();
            m_cookieContainer.Add(response.Cookies);
        }


        private string EncodeStr(string val_PostStr, Encoding enc)
        {
            string retn = string.Empty;
            string[] strArr = val_PostStr.Split('&');
            foreach (string str in strArr)
            {
                string[] strArr1 = str.Split('=');
                retn += strArr1[0] + "=" + HttpUtility.UrlEncode(strArr1[1],enc) + "&";
            }
            retn = retn.Substring(0, retn.Length - 1);
            return retn;
        }

        public void ReponseClose()
        {
            response.Close();
        }

        //向val_url地址发送get报文
        public void GetHttp(Uri val_url)
        {
            request = (HttpWebRequest)HttpWebRequest.Create(val_url);
            request.Method = "GET";
            request.Accept = "*/*";
            request.CookieContainer = m_cookieContainer;
            response = (HttpWebResponse)request.GetResponse();
            m_cookieContainer.Add(response.Cookies);
        }
    }
}


 

图片下载demo程序代码

 

 

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using HttpWeb;
using System.IO;
using System.Text.RegularExpressions;

namespace demo
{
    public class DownImage
    {
        private Proxy px = new Proxy();
        private string url = @"http://www.quanjing.com/GetImage.ashx?q=%E8%87%AA%E7%84%B6%E7%95%8C%7C%7C1%7C100%7C1%7C2%7C%7C%7C%7C&Fr=1&CEFlag=1&size=&sortFlag=&isScroll=0&_=1310026216505";
        private Regex reUrl = new Regex("lowsrc=\"(.+?)\"");
        private string path = @"D:\Image";

        //取图片地址 保存到一个list结构里
        private List<string> getUrl()
        {
            List<string> retnList = new List<string>();
            Uri urlUri = new Uri(url);
            px.GetHttp(urlUri);
            StreamReader sr = new StreamReader(px.Response.GetResponseStream());
            string pageStr = sr.ReadToEnd();
            sr.Close();
            px.ReponseClose();
            Match maUrl = reUrl.Match(pageStr);
            while (maUrl.Success)
            {
                string urlStr = maUrl.Groups[1].Value.ToString().Trim();
                retnList.Add(urlStr);
                maUrl = maUrl.NextMatch();
            }

            return retnList;
        }

        //下载图片
        private void downLoad()
        {
            List<string> urlList = getUrl();
            foreach (string imageUrl in urlList)
            {
                Uri imageUri = new Uri(imageUrl);
                Regex reFileName = new Regex(".+/(.+)");
                Match maFileName = reFileName.Match(imageUrl);
                string fileName;
                if (maFileName.Success)
                {
                    fileName = maFileName.Groups[1].Value.ToString().Trim();
                }
                else
                {
                    fileName = Guid.NewGuid().ToString();
                }
                px.GetHttp(imageUri);
                Stream sr = px.Response.GetResponseStream();
                int bufferSize = 2048;
                int readCount;
                byte[] buffer = new byte[bufferSize];
                readCount = sr.Read(buffer, 0, bufferSize);
                FileStream fs = new FileStream(path + "/" + fileName, FileMode.Create);
                while (readCount > 0)
                {
                    fs.Write(buffer, 0, readCount);
                    readCount = sr.Read(buffer, 0, bufferSize);
                }
                sr.Close();
                fs.Close();
                px.ReponseClose();
                
            }
        }

        public void run()
        {
            downLoad();
        }

    }
}


 

.Net中有不少开源的爬虫工具,abot就是其中之一。Abot是一个开源的.net爬虫,速度快,易于使用和扩展。项目的地址是 https://github.com/sjdirect/abot 对于爬取的Html,使用的分析工具是CsQuery, CsQuery可以算是.net中实现的Jquery, 可以使用类似Jquery中的方法来处理html页面。CsQuery的项目地址是https://github.com/afeiship/CsQuery一. 对Abot爬虫配置1. 通过属性设置先创建config对象,然后设置config中的各项属性:CrawlConfiguration crawlConfig = new CrawlConfiguration();  crawlConfig.CrawlTimeoutSeconds = 100;  crawlConfig.MaxConcurrentThreads = 10;  crawlConfig.MaxPagesToCrawl = 1000;  crawlConfig.UserAgentString = "abot v1.0 http://code.google.com/p/abot";  crawlConfig.ConfigurationExtensions.Add("SomeCustomConfigValue1", "1111");  crawlConfig.ConfigurationExtensions.Add("SomeCustomConfigValue2", "2222");2. 通过App.config配置直接从配置文件中读取,但是也任然可以在修改各项属性:CrawlConfiguration crawlConfig = AbotConfigurationSectionHandler.LoadFromXml().Convert(); crawlConfig.CrawlTimeoutSeconds = 100;  crawlConfig.MaxConcurrentThreads = 10;3. 应用配置到爬虫对象PoliteWebCrawler crawler = new PoliteWebCrawler(); PoliteWebCrawler crawler = new PoliteWebCrawler(crawlConfig, null, null, null, null, null, null, null);二,使用爬虫,注册各种事件爬虫中主要是4个事件, 页面爬取开始、页面爬取失败、页面不允许爬取事件、页面中的链接不允许爬取事件。下面是示例代码:crawlergeCrawlStartingAsync  = crawler_ProcessPageCrawlStarting;//单个页面爬取开始  crawler.PageCrawlCompletedAsync  = crawler_ProcessPageCrawlCompleted;//单个页面爬取结束  crawler.PageCrawlDisallowedAsync  = crawler_PageCrawlDisallowed;//页面不允许爬取事件  crawler.PageLinksCrawlDisallowedAsync  = crawler_PageLinksCrawlDisallowed;//页面链接不允许爬取事件 void crawler_ProcessPageCrawlStarting(object sender, PageCrawlStartingArgs e) {   PageToCrawl pageToCrawl = e.PageToCrawl;   Console.WriteLine("About to crawl link {0} which was found on page {1}", pageToCrawl.Uri.AbsoluteUri, pageToCrawl.ParentUri.AbsoluteUri); } void crawler_ProcessPageCrawlCompleted(object sender, PageCrawlCompletedArgs e) {   CrawledPage crawledPage = e.CrawledPage;   if (crawledPage.WebException != null || crawledPage.HttpWebResponse.StatusCode != HttpStatusCode.OK)     Console.WriteLine("Crawl of page failed {0}", crawledPage.Uri.AbsoluteUri);   else     Console.WriteLine("Crawl of page succeeded {0}", crawledPage.Uri.AbsoluteUri);   if (string.IsNullOrEmpty(crawledPage.Content.Text))     Console.WriteLine("Page had no content {0}", crawledPage.Uri.AbsoluteUri); } void crawler_PageLinksCrawlDisallowed(object sender, PageLinksCrawlDisallowedArgs e) {   CrawledPage crawledPage = e.CrawledPage;   Console.WriteLine("Did not crawl the links on page {0} due to {1}", crawledPage.Uri.AbsoluteUri, e.DisallowedReason); } void crawler_PageCrawlDisallowed(object sender, PageCrawlDisallowedArgs e) {   PageToCrawl pageToCrawl = e.PageToCrawl;   Console.WriteLine("Did not crawl page {0} due to {1}", pageToCrawl.Uri.AbsoluteUri, e.DisallowedReason); }三, 为爬虫添加多个附加对象Abot应该是借鉴了Asp.net MVC中的ViewBag, 也为爬虫对象设置了对象级别的CrwalBag和Page级别的ViewBag.PoliteWebCrawler crawler = new PoliteWebCrawler(); crawler.CrawlBag.MyFoo1 = new Foo();//对象级别的 CrwalBagcrawler.CrawlBag.MyFoo2 = new Foo(); crawler.PageCrawlStartingAsync  = crawler_ProcessPageCrawlStarting; ...void crawler_ProcessPageCrawlStarting(object sender, PageCrawlStartingArgs e) {   //获取CrwalBag中的对象   CrawlContext context = e.CrawlContext;    context.CrawlBag.MyFoo1.Bar();  //使用CrwalBag    context.CrawlBag.MyFoo2.Bar();      //使用页面级别的    PageBag  e.PageToCrawl.PageBag.Bar = new Bar(); }四,启动爬虫启动爬虫非常简单,调用Crawl方法,指定好开始页面,就可以了。CrawlResult result = crawler.Crawl(new Uri("  if (result.ErrorOccurred)         Console.WriteLine("Crawl of {0} completed with error: {1}",          result.RootUri.AbsoluteUri, result.ErrorException.Message         );          else         Console.WriteLine("Crawl of {0} completed without error.", result.RootUri.AbsoluteUri);五,介绍CsQuery在PageCrawlCompletedAsync事件中, e.CrawledPage.CsQueryDocument就是一个CsQuery对象。这里介绍一下CsQuery在分析Html上的优势:cqDocument.Select(".bigtitle > h1")这里的选择器的用法和Jquery完全相同,这里是取class为.bittitle下的h1标签。如果你能熟练的使用Jquery,那么上手CsQuery会非常快和容易。 标签:网络爬虫  网络蜘蛛
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值