.NET网站爬虫初体验

前段日子领导给分配了个爬取某个网站某几项栏目数据的任务。打开网站看了下,首先该网站是没有验证码限制的,这无形中减小了我的爬取难度,其二该网站采用了是.NET方式开发的对与这个语言不太了解,故我本着知己知彼才能百战百胜的策略先去网上了解了下这门语言。

在这一过程中,逐渐了解到,VIEWSTATE这一关键属性,它代表了网站当前的一种页面状态,当我在用httpClient模拟浏览器请求时也需要模拟这一状态,否则失败。

在此基础上我就开始着手爬取改网站数据了。首先必须解决的一个问题是 登录验证问题,首先它没设验证码,初看时感觉很简单,但是我按着他页面上的登录要求模拟登录时一直失败,比较麻烦的是我用已有的用户名密码登录时拿不到他真正的验正的URL参数列表,它在成功处理这个请求时就已经转发到另一个URL了而该URL中的参数列表并不是我所需要的。当时也没搞定这个问题,就先耍无赖的把他已经登录成功后的VIEWSTATE拿到手保存起来在后面的环节里直接用。后来在优化时,发现当输入错误的用户名或密码时能拿到参数列表,进而对参数列表进行分析,发现它对登录时鼠标点击的位置还有参数要求。。经过观察得到了鼠标点击位置要求的合理范围,对此范围做随机数生成,并对它所需参数列表进行喂值,so,小爬虫就可以稳定的运行了。

在此过程中遇到的坑,用google浏览器在查看请求参数时由于viewState的大数据量经常会出现假死的情况,后面换了firefox就没有这个问题,当时这也是困扰我的一个障碍 - .-!,选择合适的工具还是很重要的~

对了最后补充下对爬取到的html我是通过jsoup来处理的,因为类似jq的选择器对与获取文本,值什么的也挺方便的,方法也比较齐全。

httpClient:


public static String postRequest(String url, NameValuePair[] data,
String cookie) {
String responseHtml = null;
HttpClient httpClient = new HttpClient();
PostMethod postMethod = new PostMethod(url);
try {
postMethod.setRequestHeader("Accept-Encoding", "gzip, deflate");
postMethod.setRequestHeader("Content-Type",
"application/x-www-form-urlencoded");
if (!"".equals(cookie)&&cookie!=null) {
postMethod.setRequestHeader("Cookie", cookie);
}
postMethod
.setRequestHeader(
"User-Agent",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36");
if(data!=null){
postMethod.setRequestBody(data);
}
httpClient.executeMethod(postMethod);
Cookie[] cookies = httpClient.getState().getCookies();
  for (Cookie c : cookies) {
                System.err.println("cookies = "+c.toString());
            }
responseHtml = postMethod.getResponseBodyAsString();
} catch (HttpException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} finally {
if (postMethod != null) {
postMethod.releaseConnection();
}
}


return responseHtml;
}


/***

* 获取cookie
* @param url 网址
* @param data 请求参数
* @return cookie字符串
*/
public static String getWebsiteCookie(String url, NameValuePair[] data){
StringBuffer cookie=new StringBuffer();
HttpClient httpClient = new HttpClient();
PostMethod postMethod = new PostMethod(url);
try {
postMethod.setRequestHeader("Accept-Encoding", "gzip, deflate");
postMethod.setRequestHeader("Content-Type",
"application/x-www-form-urlencoded");
postMethod
.setRequestHeader(
"User-Agent",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36");
if(data!=null){
postMethod.setRequestBody(data);
}
httpClient.executeMethod(postMethod);
//HTTP响应头部信息
Header[] headers=postMethod.getResponseHeaders();
for(int i=0;i<headers.length;i++){
Header h=headers[i];
if("Set-Cookie".equals(h.getName())){
String s=h.getValue();
String sub=null;
if(i==(headers.length-1)){
sub=s.substring(0, s.indexOf(";"));
}else{
sub=s.substring(0, s.indexOf(";"))+";";
}
cookie.append(sub);
// System.out.println("cookie:"+sub);
}
}
// System.out.println(responseHtml); 
} catch (HttpException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} finally {
if (postMethod != null) {
postMethod.releaseConnection();
}
}


return cookie.toString();

}



.Net中有不少开源的爬虫工具,abot就是其中之一。Abot是一个开源的.net爬虫,速度快,易于使用和扩展。项目的地址是 https://github.com/sjdirect/abot 对于爬取的Html,使用的分析工具是CsQuery, CsQuery可以算是.net中实现的Jquery, 可以使用类似Jquery中的方法来处理html页面。CsQuery的项目地址是https://github.com/afeiship/CsQuery一. 对Abot爬虫配置1. 通过属性设置先创建config对象,然后设置config中的各项属性:CrawlConfiguration crawlConfig = new CrawlConfiguration();  crawlConfig.CrawlTimeoutSeconds = 100;  crawlConfig.MaxConcurrentThreads = 10;  crawlConfig.MaxPagesToCrawl = 1000;  crawlConfig.UserAgentString = "abot v1.0 http://code.google.com/p/abot";  crawlConfig.ConfigurationExtensions.Add("SomeCustomConfigValue1", "1111");  crawlConfig.ConfigurationExtensions.Add("SomeCustomConfigValue2", "2222");2. 通过App.config配置直接从配置文件中读取,但是也任然可以在修改各项属性:CrawlConfiguration crawlConfig = AbotConfigurationSectionHandler.LoadFromXml().Convert(); crawlConfig.CrawlTimeoutSeconds = 100;  crawlConfig.MaxConcurrentThreads = 10;3. 应用配置到爬虫对象PoliteWebCrawler crawler = new PoliteWebCrawler(); PoliteWebCrawler crawler = new PoliteWebCrawler(crawlConfig, null, null, null, null, null, null, null);二,使用爬虫,注册各种事件爬虫中主要是4个事件, 页面爬取开始、页面爬取失败、页面不允许爬取事件、页面中的链接不允许爬取事件。下面是示例代码:crawlergeCrawlStartingAsync  = crawler_ProcessPageCrawlStarting;//单个页面爬取开始  crawler.PageCrawlCompletedAsync  = crawler_ProcessPageCrawlCompleted;//单个页面爬取结束  crawler.PageCrawlDisallowedAsync  = crawler_PageCrawlDisallowed;//页面不允许爬取事件  crawler.PageLinksCrawlDisallowedAsync  = crawler_PageLinksCrawlDisallowed;//页面链接不允许爬取事件 void crawler_ProcessPageCrawlStarting(object sender, PageCrawlStartingArgs e) {   PageToCrawl pageToCrawl = e.PageToCrawl;   Console.WriteLine("About to crawl link {0} which was found on page {1}", pageToCrawl.Uri.AbsoluteUri, pageToCrawl.ParentUri.AbsoluteUri); } void crawler_ProcessPageCrawlCompleted(object sender, PageCrawlCompletedArgs e) {   CrawledPage crawledPage = e.CrawledPage;   if (crawledPage.WebException != null || crawledPage.HttpWebResponse.StatusCode != HttpStatusCode.OK)     Console.WriteLine("Crawl of page failed {0}", crawledPage.Uri.AbsoluteUri);   else     Console.WriteLine("Crawl of page succeeded {0}", crawledPage.Uri.AbsoluteUri);   if (string.IsNullOrEmpty(crawledPage.Content.Text))     Console.WriteLine("Page had no content {0}", crawledPage.Uri.AbsoluteUri); } void crawler_PageLinksCrawlDisallowed(object sender, PageLinksCrawlDisallowedArgs e) {   CrawledPage crawledPage = e.CrawledPage;   Console.WriteLine("Did not crawl the links on page {0} due to {1}", crawledPage.Uri.AbsoluteUri, e.DisallowedReason); } void crawler_PageCrawlDisallowed(object sender, PageCrawlDisallowedArgs e) {   PageToCrawl pageToCrawl = e.PageToCrawl;   Console.WriteLine("Did not crawl page {0} due to {1}", pageToCrawl.Uri.AbsoluteUri, e.DisallowedReason); }三, 为爬虫添加多个附加对象Abot应该是借鉴了Asp.net MVC中的ViewBag, 也为爬虫对象设置了对象级别的CrwalBag和Page级别的ViewBag.PoliteWebCrawler crawler = new PoliteWebCrawler(); crawler.CrawlBag.MyFoo1 = new Foo();//对象级别的 CrwalBagcrawler.CrawlBag.MyFoo2 = new Foo(); crawler.PageCrawlStartingAsync  = crawler_ProcessPageCrawlStarting; ...void crawler_ProcessPageCrawlStarting(object sender, PageCrawlStartingArgs e) {   //获取CrwalBag中的对象   CrawlContext context = e.CrawlContext;    context.CrawlBag.MyFoo1.Bar();  //使用CrwalBag    context.CrawlBag.MyFoo2.Bar();      //使用页面级别的    PageBag  e.PageToCrawl.PageBag.Bar = new Bar(); }四,启动爬虫启动爬虫非常简单,调用Crawl方法,指定好开始页面,就可以了。CrawlResult result = crawler.Crawl(new Uri("  if (result.ErrorOccurred)         Console.WriteLine("Crawl of {0} completed with error: {1}",          result.RootUri.AbsoluteUri, result.ErrorException.Message         );          else         Console.WriteLine("Crawl of {0} completed without error.", result.RootUri.AbsoluteUri);五,介绍CsQuery在PageCrawlCompletedAsync事件中, e.CrawledPage.CsQueryDocument就是一个CsQuery对象。这里介绍一下CsQuery在分析Html上的优势:cqDocument.Select(".bigtitle > h1")这里的选择器的用法和Jquery完全相同,这里是取class为.bittitle下的h1标签。如果你能熟练的使用Jquery,那么上手CsQuery会非常快和容易。 标签:网络爬虫  网络蜘蛛
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值